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内 容 提 要 


本 书 分 什么 是 大 数据 、 大 数据 大 商机 、 技 术 与 前 瞻 3 个 部 分 。 第 一 部 分 介绍 大 数据 分 析 的 概念 ， 
以 及 企业 、 政 府 部 门 可 应 用 的 范畴 。 什 么 是 大 数据 分 析 ? 与 个 人 与 企业 有 什么 关系 ? 将 对 全 球 产业 
造成 怎样 的 冲击 ? 第 二 部 分 完整 介绍 大 数据 在 各 产业 的 应 用 实况 ， 为 企业 及 政府 部 门 提供 应 用 的 方 
向 。 提 供 了 全 球 各 地 的 实际 应 用 案例 ， 涵 盖 零 售 、 金 融 、 政 府 部 门 、 能 源 、 制 造 、 娱 乐 、 医 疗 、 电 
信 等 各 个 行业 ， 充 分 展现 大 数据 分 析 产生 的 效益 。 第 三 部 分 则 简单 介绍 了 大 数据 分 析 所 需 技术 及 未 
来 发 展 趋势 ， 为 读者 提供 了 应 用 与 研究 的 方向 。 

本 书 以 科普 的 视角 描述 了 云端 时 代 的 大 数据 分 析 应 用 ， 涉 及 各 个 行业 ， 具 有 普遍 的 参考 性 和 指 
导 性 ， 适 合 所 有 对 数据 、 数 据 挖掘、 数据 分 析 感 兴趣 的 技术 人 员 、 管 理 人 员 、 咨 询 人 员 、 企 业 决策 
者 及 相关 行业 人 员 阅 读 。 
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在 数据 海中 
航向 创新 之 地 


每 一 次 的 技术 革命 都 意味 着 外 部 环境 的 大 幅 改变 ， 而 企业 也 必须 跟 
着 转型 ， 否 则 很 快 就 会 在 时 代 的 巨轮 下 消逝 。 而 转型 ,以 TBM 自身 来 说 ， 
有 超过 100 年 的 经 验 可 以 分 享 ; 

经 过 前 50 年 的 迅速 发 展 , 到 20 世纪 70 年 代 的 时 候 , IBM 已 经 是 在 
计算 机 行业 里 非常 成 功 的 公司 , 但 是 80 年 代 之 后 , IBM 犯 了 一 系列 的 错 

BR, 在 1993 年 陷入 最 低谷 ， 其 至 濒临 破产 。 

市 场 的 翻转 ， 让 我 们 走 上 一 条 不 断 地 改变 自己 、 去 适应 环境 变化 的 
转型 和 创新 之 路 。1993 年 之 后 ，IBM 历经 了 3 次 重大 的 转型 ， 第 1 次 转 
型 是 从 硬件 转向 软件 和 服务 , 第 2 次 转型 则 是 出 售 了 PC 业务 , 向 高 价值 
业务 转型 。2004 年 之 后 ， 整 合 “ 全 球 企业 ”和 “智慧 的 地 球 "， 让 IBM 
每 年 节约 开支 10 亿美 元 ， 每 股 盈 利 连续 8 年 、36 个 季度 以 两 位 数 增长 。 
而 今 ， 我 们 90% 的 利润 来 自 软 件 和 服务 ， 而 不 是 来 自 硬件 。 

过 去 10 年 ， 大 环境 改变 是 很 大 的 ， 尤 其 在 金融 危机 以 后 。 然 而 ,成 
功 的 时 代 里 也 有 失败 的 企业 ， 即 便 是 在 最 困难 的 环境 里 也 有 非常 成 功 的 
企业 ， 唯 有 转型 和 创新 ， 才 有 能 力 驾 驭 这 些 外 来 的 影响 。 





2012 4E, IBM 在 全 球 范围 内 对 1709 位 企业 CEO 进行 了 调研 ， 了 解 
了 他 们 对 互联 经 济 大 格局 之 下 企业 如 何 持续 转型 的 看 法 , -发现 CEO 们 并 
不 满足 于 IT 运用 仅 止 于 整合 供应 链 和 后 端 办 公 系统 ,而 是 希望 充分 发 挥 
天 数据 和 五 联 科技 的 潜 方 ， 重 新 思考 人 与 人 互联 后 对 企业 带 来 的 价值 


“二 “有 超过 一 半 的 CEO 认为 ; 在 新 时 代 壬 要 转型 创新 ; 必须 建立 广泛 的 ， 
伙伴 关系 ;进行 充分 的 协作 。 超过 70% 的 CEO 认为 企业 必须 建立 强大 一 


的 业务 分 析 洞 察 能 力 ; 从 而 能 够 深入 理解 每 一 个 客户 :对 于 他 作 的 需求- 


一 做 出 快速 反应 ， 以 个 性 化 服务 襄 得 客户 。 也 有 75% 的 CEO 认为 ;在 新 的 


互联 时 代 萌 景 下 ， 社交 媒体 的 影响 越 来 越 大 ,必须 有 新 的 人 才 战 略 。 

这 些 来 自 绩优 企业 的 3 项 最 重要 的 发 现 ; 代表 着 企业 必须 建立 更 加 
开放 的 文化 ， 抓 住 世界 进入 计算 新 纪元 的 趋势 和 契机 ， 挖 掘 出 大 数据 中 - 
有 价值 的 洞察 ， 而 这 些 洞察 也 将 成 为 企业 创新 的 源泉 ， 以 及 和 客户 一 起 
智慧 增长 的 能 力 。 

尤其 在 现今 的 环境 里 ， 数 据 量 的 爆发 和 以 前 完全 不 一 样 ， 我 们 的 数 
据 有 90% 是 过 去 两 年 创造 出 来 的 ， 到 了 2020 年 的 时 候 ,全 世界 要 消化 的 
数据 量 是 现在 的 44 倍 以 上 。 为 什么 有 那么 大 的 数据 源 ? 除了 传统 企业 党 
握 的 数字 ， 每 天 都 有 各 种 各 样 数据 在 传输 的 社交 网 站 之 外 ， 也 包括 物 联 
网 连接 起 来 以 后 ， 即 便 养 一 头 牛 、 养 一 头 猪 都 有 芯片 ， 都 会 产生 的 无 数 
数据 。 

今天 的 数据 已 经 不 是 我 们 用 传统 的 方式 ， 把 数字 输入 计算 机 处 理 一 
下 就 得 到 报表 ， 而 是 在 感知 化 〈( instrumented )、 物 联 化 〈 interconnected ) 
和 智能 化 (intelligent) 的 交会 下 ， 就 好 像 把 调节 水 量 的 3 道 曾 门 同时 开 
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启 一 样 ， 遍 及 各 处 的 数据 量 ， 从 原本 的 泥 沁 细 流 汇流 成 磅 磷 大 川 ， 再 倾 
泄 灌 入 一 片 无 边 无 际 的 数据 海洋 。 

而 企业 在 这 片 数据 汪洋 中 安全 地 航向 目的 地 ， 还 是 被 巨 浪 吞 没 ， 就 
是 这 本 书 要 谈 的 主要 议题 ， 在 这 个 命题 之 下 ， 这 本 书 里 所 谈 的 大 数据 ， 
并 不 只 是 一 门 新 技术 ， 更 是 以 大 量 的 数据 为 基础 ， 进 行业 务 分 析 、 预 估 
与 洞察 的 创新 能 力 。 

在 这 个 变动 的 环境 中 、 数 据 爆炸 的 时 代 下 ， 全 世界 经 济 正在 重组 。 
未 来 ， 有 70% 的 增长 来 自 新 兴 市 场 ， 会 有 30 亿 人 口 成 为 新 的 中 产 阶 级 ， 
带动 全 球 供应 链 发 生 新 的 变化 ， 这 个 重组 过 程 对 企业 来 说 ， 既 是 机 会 也 
是 挑战 。 

如 果 能 把 大 量 的 数据 ， 用 科学 化 的 方式 做 到 更 优化 的 预 估 ， 那 么 在 
面 对 复杂 环境 所 带 来 的 诸多 挑战 下 ， 不 管 是 企业 或 政府 就 有 可 能 运用 这 
些 经 过 提炼 的 智慧 ， 创 造 新 的 增长 机 遇 以 及 全 新 的 价值 。 

诚 如 书 中 所 说 ， 这 已 经 不 是 一 个 简单 的 数据 增长 问题 ， 而 是 一 场 量 
变形 成 质变 的 变革 ， 囊 心 期 盼 在 巨变 之 后 的 新 世界 里 ， 我 们 都 会 是 搭 上 
发 现 者 号 的 一 员 ， 持 续 往 创新 的 方向 航行 。 





钱 大 群 
IBM 大 中 华 区 总 裁 
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推荐 序 二 
一 个 由 数据 
组 成 的 人 与 世界 


“过 去 两 年 ， 人 们 制造 的 数据 就 占 了 当今 全 球 数据 总 量 的 90%。” 
针对 这 句 话 ， 有 3 个 观点 值得 被 “特别 提出 ”。 


1. 数据 增生 的 速度 


大 数据 以 这 样 的 速度 逼近 到 我 们 面前 。 如 果 我 们 把 两 年 以 前 的 文明 
累积 基数 以 200 年 为 限 ， 意 味 着 我 们 只 用 了 近 1/100 的 时 间 ， 就 创造 了 9 成 
以 上 的 数据 。 速 度 快 到 我 们 甚至 来 不 及 找 出 一 个 确定 的 中 文 名 词 来 翻译 
(叫做 : 巨 量 数据 、 大 数据 、 大 资料 ， 还 是 大 数据 )， 我 们 就 急于 需要 这 
些 新 的 理解 、 新 的 应 用 ， 面 对 新 的 可 能 ， 还 要 面 对 新 的 危险 。 


2. 个 人 数据 的 隐私 


从 个 人 的 角度 来 看 ， 我 们 从 未 被 如 此 清楚 地 记录 过 。 我 们 的 基本 行 
为 其 实 没有 剧烈 的 改变 ， 还 是 要 吃 穿 ， 还 是 要 交通 ， 还 是 需要 有 住 的 地 





方 ， 也 还 是 需要 娱乐 和 教育 。 即 便 我 们 有 时 候 用 冷漠 来 面 对 ， 政 治 依然 
是 我 们 关心 的 事 ， 即 便 我 们 有 越 来 越 长 的 寿命 ， 用 医疗 来 抵抗 死亡 依然 
是 我 们 每 天 的 企图 。 

但 我 们 从 来 没有 被 如 此 详实 地 被 记录 着 。 我 们 在 什么 特定 时 间 去 了 
哪 家 餐厅 、 在 某 一 个 商场 待 了 3 个 小 时 , 看 了 一 场 3D 动作 片 , 平均 消费 
额 超过 1200 元 ， 因 为 某 部 新 的 智能 手机 上 市 带动 本 月 多 消费 了 6000 
多 元 。 哪 个 地 点 上 车 ， 哪 一 站 下 车 。 某 市 5 月 的 GDP 因为 天 气 比 往年 
BINDT 14%。 购 物 推荐 的 算法 除了 可 以 推荐 商品 ， 也 可 以 应 用 在 类 似 
基因 的 族群 ， 把 你 可 能 会 肉 患 的 疾病 推荐 给 你 。 这 些 数据 ， 正 以 新 的 速 
度 ， 揭 示 各 种 新 的 理解 。 

公共 领域 和 私有 领域 的 界限 模糊 更 不 只 发 生 在 Facebook 等 社交 网 
络 ， 这 些 数据 的 归属 、 谁 能 用 什么 样 的 方式 记录 什么 、 如 何 应 用 或 交易 
这 些 数 据 ， 正 在 加 剧 冲击 我 们 以 往 所 熟悉 的 隐私 ， 提 升 或 者 破坏 我 们 的 
生活 。 


3. 数据 所 带 来 的 权力 


我 们 还 缺乏 一 个 允许 或 不 允许 、 哪 些 政府 或 企业 、 在 什么 情况 下 、 
可 以 或 不 可 以 记录 和 使 用 、 哪 些 数据 到 什么 程度 的 成 熟 定义 与 机 制 。 

从 另外 一 个 方面 来 看 ， 拥 有 数据 的 组 织 ， 会 比 没有 数据 的 组 织 拥有 
更 大 的 权力 。 拥 有 数据 规模 较 大 的 组 织 ， 会 比 拥有 数据 规模 较 小 的 组 织 
拥有 更 大 的 权力 。 拥 有 较 完整 的 数据 的 组 织 ， 会 比 拥有 较 不 完整 数据 的 


推荐 序 二 


组 织 拥 有 更 大 的 权力 。 拥 有 更 实时 数据 的 组 织 ， 会 比 拥有 更 不 实时 数据 
的 组 织 拥 有 更 大 的 权力 。 拥 有 消费 者 信任 、 主 动 提供 数据 的 组 织 ， 会 比 
缺乏 消费 者 信任 、 背 后 搜集 数据 的 组 织 ， 拥 有 更 大 的 权力 。 

数据 被 大 量 地 释放 出 来 ， 权 力 便 被 大 量 地 释放 出 来 。 知 识 被 大 量 地 
创造 出 来 ， 权 力 便 被 大 量 地 创造 出 来 。 

缺乏 这 些 数据 的 组 织 、 缺 乏 能 力 将 数据 转换 为 知识 的 组 织 ， 就 缺乏 
和 这 个 世界 互动 的 基础 ， 就 不 能 成 为 这 个 新 世界 的 一 部 分 。 

信息 焦虑 只 是 个 人 遭受 信息 时 代 冲 击 产生 的 课题 ， 那 只 是 “前 菜 ”。 

欢迎 来 到 弥漫 “数据 焦虑 ”的 大 数据 时 代 。 


RES 
《TechOrange 科技 报 桶 》 创 办 人 暨 发 行人 
《WIRED 国际 中 文 版 》 创 刊 总 编辑 
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Part 1 


107 


t41 


187 


HE 人 类 生活 的 下 一 块 拼 图 


什么 是 大 数据 


第 1 章 大 数据 新 世界 
第 2 章 不 只 是 大 而 已 


大 数据 大 商机 


第 3 章 
第 4 章 
第 5 章 
第 6 章 
第 7 章 
第 8 章 
第 9 章 


破坏 式 的 全 新 竞争 力 
应 用 案例 : 从 营销 到 反恐 


TE: 
医疗 : 
政府 : 
能 源 : 
电信 : 


更 好 、 更 快 、 更 便宜 
降低 成 本 、 促 进 医学 研发 
提高 效率 、 打 击 犯 罪 
节能 减 排 新 利器 

庞大 的 通信 数据 就 是 宝山 


第 10 章 金融 : 防 堵 诈 骗 、 有 效 营销 
第 11 章 制造 : 协调 产销 、 管 理 供应 链 


第 12 章 娱乐 : 更 深入 、 更 实时 的 娱乐 体验 


Part3 ASM 


201 第 13 章 大 数据 分 析 的 技术 要 件 
227 第 14 章 结语 与 展望 
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导读 


人 类 生活 的 
下 一 块 拼图 


早 在 几 年 前 ， 大 数据 的 相关 话题 就 已 在 科技 界 发 酵 ， 当 时 大 家 着 重 
的 是 技术 层面 ， 希 望 开发 更 先进 的 软 硬 件 ， 更 有 效 地 储存 、 利 用 这 些 应 
对 网 络 时 代 而 不 断 产生 的 数据 。 但 是 ， 大 数据 之 所 以 重要 ， 绝 不 是 更 先 
进 的 数据 资料 采集 而 已 ， 因 此 每 当 讨论 这 个 议题 时 ， 我 总 是 一 再 地 强调 ， 
我 们 要 探讨 的 主题 叫做 “大 数据 分 析 ”( Big Data Analytics )。 

诚 如 本 书 所 提 到 的 ， 大 数据 真正 的 价值 在 于 趋势 背后 所 包含 的 “分 
BRE" (Analytics ), 也 就 是 以 系统 化 的 方式 , 把 从 不 同 渠 道 获得 的 大 量 数 
据 ， 转 变 为 经 过 组 织 的 信息 、 甚 至 知识 ; 这 就 像 是 一 个 人 同时 拥有 听觉 、 
视觉 、 味 党 和 触觉 一 样 ， 将 这 些 “感觉 ”综合 起 来 ， 才 能 感知 到 我 们 身 
处 的 每 一 个 瞬间 ， 然 后 应 对 各 种 状况 ， 做 出 适当 的 反应 。 

尤其 是 在 这 一 个 越 来 越 “ 平 "、 越 变 越 “ 小 ”的 世界 里 ， 人 与 人 、 
人 与 环境 之 间 的 连结 越 来 越 紧 密 ， 交 互 影响 力也 越 来 越 大 ， 人 们 开始 意 
识 到 在 这 个 世界 上 生活 ,没有 人 可 以 园 身 事 外 ,无 论 好 事 或 是 坏事 ,就 
比如 说 这 几 年 的 金融 危机 、 能 源 短缺 、 环 境 污 染 、 食 品 安 全 等 风险 ， 都 
已 经 不 再 是 区 域 性 问题 ,而 是 实 实在 在 地 影响 着 各 个 国家 、 各 个 阶层 的 





每 一 个 人 。 

同时 ， 通 过 手机 、 网 络 、 传 感 器 (sensor) 等 数字 化 系统 ， 让 人 类 历 
史上 第 一 次 ， 几 乎 任何 东西 都 可 以 数字 化 地 被 测量 ， 各 种 创新 的 感应 科 
技 大 量 被 嵌入 汽车 、 家 电 、 公 路 、 水 利 、 电 力 等 设施 当中 ， 加 上 网 络 的 
高 速 发 展 ， 使 得 越 来 越 多 的 人 、 物 品 、 环 境 可 以 被 建构 成 一 个 互联 互通 
的 系统 。 


从 数据 里 挖 出 新 需求 


发 展 大 数据 分 析 的 意义 是 将 这 些 大 量 增生 的 新 数据 ， 通 过 分 析 工 具 
形成 新 的 洞察 ， 进 而 提早 在 变化 莫 测 的 世界 里 预知 风险 ， 以 追求 更 美好 
安全 的 生活 ， 所 以 它 不 只 是 新 科技 ， 而 是 一 种 新 生活 形态 的 前 导 ， 而 这 
种 新 的 生活 形态 ， 对 于 人 类 文明 的 发 展 来 说 意义 深远 。 

如 果 我 们 沿 时 间 次 序 去 回顾 人 类 文明 的 发 展 进程 ， 目 前 为 止 已 发 生 
了 3 种 类 型 的 革命 ， 背 后 的 原因 大 都 是 为 了 提高 生产 力 。 第 1 种 类 型 的 
分 子 是 “需要 花 的 时 间 "， 分母 是 “地 理 上 相隔 的 距离 "， 人 类 希望 花 在 
交通 时 间 上 的 数值 越 来 越 小 ， 也 就 是 不 管 距离 有 多 远 ， 花 的 时 间 要 越 来 
越 短 ， 所 以 我 们 发 明了 新 的 道路 系统 和 运输 工具 ， 从 马车 、 火 车 一 直到 
飞机 。 

第 2 种 类 型 的 分 子 是 “生产 量 "， 分 母 则 是 “一 定 的 人 口 数 "。 人 类 
希望 这 个 数值 可 以 越 来 越 大 ， 因 此 本 来 我 们 一 天 只 有 8 小 时 的 白天 时 间 
用 来 工作 、 生 产 ， 发 明了 电灯 以 后 ， 现 在 我 们 一 天 的 生产 时 间 可 能 增加 
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到 14 小 时 以 上 。 又 或 者 是 电 冰 箱 和 洗衣 机 的 发 明 ， 是 因为 过 去 的 社会 结 
构 ， 家 庭 需要 女性 来 照顾 ， 因 此 过 去 的 女性 就 被 绑 在 家 里 ， 直 到 有 了 家 
电 的 辅助 ， 女 性 才 有 余力 投入 生产 ， 因 此 “电气 化 ”在 近代 史上 也 是 一 
个 很 大 的 改变 = 

当 整 个 生产 的 时 间 缩 短 、 数 量变 大 ， 我 们 还 希望 它 质量 稳定 ， 因 
此 人 类 又 发 明了 计算 机 ， 来 帮助 人 类 做 一 些 重复 的 事情 ， 例 如 抄写 、 
填 表 ， 也 因此 计算 机 最 旱 的 应 用 都 是 我 们 现在 每 天 要 用 的 文档 和 电子 
表格 , 之 后 逐渐 发 展 成 可 以 帮 人 类 处 理 很 多 繁琐 又 精细 的 重复 性 工作 ， 
像 是 设备 、 机 床 等 仪器 ， 借 由 “设备 化 ”把 人 为 的 不 稳定 性 控制 到 
最 低 。 

从 利用 交通 工具 缩短 时 空 距离 、 利 用 电气 产品 增加 生产 量 ， 一 直 
到 利用 仪器 设备 优化 生产 质量 ， 下 一 阶段 人 类 文明 的 发 展 又 会 朝 哪里 
前 进 ? 其 实 ， 不管 是 2000 年 前 、800 年 前 、100 年 前 ， 人 类 的 基本 需 
求 都 没有 改变 ， 我 们 追求 更 美好 的 生活 ， 所 以 想 办 法 提升 了 物质 上 的 
需求 ， 但 不 要 忘记 ， 还 有 另 一 部 分 也 是 豆 古 不 变 的 ， 那 就 是 人 们 心灵 
上 的 需求 。 

从 历史 上 看 ， 今 天 很 多 的 改变 都 是 为 了 标准 化 ， 以 提高 生产 力 ， 但 
上 帝 创 造 每 一 个 人 的 天 性 都 不 一 样 ， 所 以 不 管 iPhone 卖 得 有 多 好 ， 就 是 
会 有 人 不 想 和 大 家 一 样 使 用 它 ， 这 种 独特 性 代表 着 在 每 一 个 人 的 心里 面 ， 
都 有 一 个 需要 去 填补 的 空虚 ， 因 此 除了 标准 化 之 外 ， 越 来 越 多 企业 注意 
到 每 一 个 人 内 在 个 性 化 的 不 同 需要 。 

举 个 最 简单 的 例子 来 涪 ， 一 间 会 议 室 里 原本 只 有 两 个 人 ， 当 另外 两 个 
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人 加 入 讨论 ， 温 度 开 始 升 高 ， 这 时 候 空调 是 不 是 应 该 开始 调整 ? 调整 到 
几 度 对 人 体 才 会 最 舒适 ?如 果 中 途 有 人 离开 ,或 是 有 人 的 情绪 越 来 越 激 
动 ， 那 么 空调 系统 又 该 如 何 应 对 ? 满足 这 些 个 性 化 的 不 同 需要 ， 在 科技 、 
商业 以 及 社会 中 都 是 正在 进行 中 的 实验 过 程 (ongoing experimentation ), 
也 是 人 类 文明 发 展 中 另 一 个 进程 的 开始 。 

经 历 了 铜 器 时 代 、 铁 器 时 代 、 原 子 时 代 和 计算 机 时 代 ， 现 在 我 们 
正在 进入 爆发 的 “数据 时 代 ”"， 如 果 缩 小 了 时 间 轴 ( time frame) 来 看 ， 
每 一 次 的 大 变化 都 是 文明 发 展 中 的 一 次 革命 ， 但 如 果 拉 长 来 看 ， 这 些 
革命 一 样 还 是 在 解决 人 类 提升 物质 和 心灵 的 需求 ， 大 数据 分 析 的 出 现 
也 是 如 此 。 

如 何 利用 大 量 的 数据 分 析 、 洞 察 ， 让 人 们 的 基本 生活 需要 以 及 心灵 
需要 ， 和 这 个 世界 的 管理 结合 起 来 ， 是 我 们 希望 大 数据 能 够 做 到 的 应 用 
和 服务 ， 而 技术 的 演进 则 是 帮助 这 件 事情 发 生 的 推动 力 。 
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所 以 ， 在 这 本 书 里 我 们 并 没有 提供 很 深入 的 技术 ， 而 是 希望 以 科普 
的 方式 让 更 多 人 了 解 ， 如 何 利用 大 数据 分 析 帮 助 你 的 企业 组织， 甚至 
生活 。 尤 其 是 当 你 可 以 用 实时 (real time ) 或 近乎 实时 的 速度 ， 整 合 来 自 
不 同 渠 道 的 庞杂 数据 ， 并 运用 强大 的 计算 能 力 分 析 和 挖掘 ， 那 么 趋势 
(Trend ) 就 不 再 只 是 像素 ,而 是 一 块 有 意义 的 拼图 。 

大 数据 分 析 可 以 帮助 我 们 拼凑 ， 甚 至 预测 趋势 的 发 生 轨 迹 ， 表 面 上 








看 来 是 帮助 产业 找到 新 的 方向 ， 但 是 这 本 书 所 要 传递 更 深层 的 意义 是 ， 
希望 这 项 新 技术 可 以 形成 一 股 由 数据 分 析 带 动 的 正 向 循环 ， 让 更 多 人 具 
备 相关 的 知识 跟 技能 ， 成 为 这 个 世界 更 良 善 的 帮助 ， 引 领 着 你 我 的 生活 
走向 一 个 更 美好 的 新 境地 。 
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ep 上 56 点 半 ， 手 机 设 定 的 闲 铃 声响 起 。 

时 Dave Cheng 猛然 地 张 开 眼 睛 ,急忙 从 床上 跳 了 下 来 。 他 用 掌心 
搓 了 搓 脸 ， 希 望 自己 快速 清醒 ， 然 后 打开 电视 新 闻 台 ， 一 边 到 浴室 简单 
梳洗 ， 一 边 听 听 有 什么 新 鲜 事 发 生 。 

今天 应 该 算是 个 特别 的 日 子 ， 特 别 的 忙碌 的 日 子 ! 昨 晚 临 睡 前 他 才 
利用 家 里 的 台式 计算 机 ， 连 到 公司 内 部 网 站 上 ， 再 次 确认 今天 上 午 他 得 
参加 两 场 会 议 ， 一 场 部 门 会 议 ， 一 场 国际 电话 会 议 ; 下 午 他 要 拜访 一 家 
客户 ; 然后 傍晚 时 飞 往 上 海 ， 陪 老板 参加 科技 商 展 。 

走出 家 门 ， 右 转 100 米 ， 到 了 公交 车 站 ，Dave Cheng 检查 重要 的 随 
身 物 品 ,笔记 本 电脑 ， 带 了 ! 护照 , 带 了 ! 20 寸 的 登 机 箱 ， 右 手 正 拖 着 ! 
万 事 齐 备 。 

看 了 看 手表 ， 时针 指向 7 点 整 ， 站 牌 前 等 公交 车 的 人 开始 多 了 起 来 。 
3 分 钟 过 后 ， 他 有 些小 小 的 不 耐 ， 拿 出 手机 点 进 “等 公交 车 ”APP (手机 
应 用 程序 )，APP 上 显示 公交 车 再 过 2 分 钟 就 会 到 站 ， 他 这 才 安心 。 

场景 转 到 3 分 钟 后 的 公交 车 上 ， 乘 客 有 6 成 以 上 都 是 高 中 生 ， 几 
乎 每 一 个 人 都 是 低头 族 ， 时 不 时 听 到 传送 LINE 消息 时 发 出 的 叮 叮 声 。 
Dave Cheng 也 打开 Facebook， 回 了 几 个 朋友 的 搞笑 帖子 ， 按 了 几 个 赞 。 

20 分 钟 后 公交 车 到 站 ， 他 先 到 附近 的 便利 商店 ， 买 了 一 份 三 明治 加 
无 糖 豆浆 的 8 元 超 值 早餐 , 然后 打 电 话 给 女 朋 友 说 早 安 。8 点 钟 走 进 公司 、 
打开 计算 机 ， 趁 着 老板 还 没 来 ，Dave Cheng 一 边 吃 着 早餐 ， 一 边 浏览 着 
在 线 电子 报 。 半 小 时 过 去 ， 他 读 了 两 篇 关于 网 债 的 报导 ， 一 篇 明星 八卦 ， 
还 顺便 查看 了 一 下 星期 五 晚上 有 什么 新 电影 可 看 。 
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然后 ， 他 点 进 公司 的 专属 邮箱 ， 确 认 昨 晚 外 国 客户 已 经 收 到 了 报价 
单 ， 再 看 看 有 没有 什么 紧急 邮件 要 处 理 ， 通 常 是 没有 ， 今 天 也 不 例外 ! 8 点 
半 过 后 ， 同 事 们 陆续 到 了 ，Dave Cheng 打开 MSN 和 Skype, MT HER 
通 的 Tom， 问 他 对 于 公司 最 近 进 行 的 人 事变 动 有 没有 什么 小 道 消 息 ， 在 
闲 扯 中 等 着 9 点 钟 的 部 门 例 行 会 议 。 

截至 目前 ， 你 是 不 是 觉得 有 些 平凡 无 趣 ? 的确 ，Dave Cheng 的 生活 
和 一 般 上 班 族 没什么 两 样 ， 但 你 没 注意 到 的 是 ， 光 是 从 起 床 到 公司 上 班 
的 这 两 个 小 时 内 ， 他 平凡 的 个 人 行为 ， 已 经 产生 了 数 亿 位 的 数据 ， 而 且 
随 着 时 间 过 去 ， 还 在 不 断 增加 中 。 


不 断 增生 的 数据 巨 浪 


使 用 手机 APP 程序 、 上 网 到 Facebook 按 赞 、 或 者 是 打 电 话 ， 都 有 无 
数 的 数据 资料 跟着 产生 ， 即 使 是 到 便利 商店 买 东西 ， 店 内 的 POS ( Point of 
Sale， 销 售 点 终端 ) 系统 也 正 记录 着 每 一 笔 消 费 信息 ， 更 别提 他 上 网 漫游 
时 所 点 击 的 网 页 、MSN 回复 的 消息 ， 这 些 轨迹 通通 都 是 数据 资料 。 

在 这 个 数字 化 的 世界 里 ,一 天 24 个 小 时 , 一 年 365 天 ， 人 们 无 时 无 
刻 都 在 生产 着 名 种 数据 微粒 。 只 要 是 使 用 手机 、 计 算 机 、 信 用 卡 …… 都 
会 产生 并 传送 出 无 数 关于 我 们 的 数据 ， 就 算是 用 移动 电话 发 送 一 个 笑脸 
符号 给 朋友 ， 在 你 还 没 来 得 及 把 手机 放 回 口袋 中 的 一 两 秒 间 ， 这 个 小 小 
的 动作 就 已 经 穿 过 光纤 网 络 ， 发 射 到 卫星 上 ， 抵 达 远 在 数 千 公里 外 的 某 
个 服务 器 里 ， 变 成 数据 记录 下 来 。 


sla 


大 数据 新 世界 


只 要 活 在 世上 ， 每 一 天 ， 我们 “生产 ”的 数字 档案 就 会 越 来 越 多 。 
如 果 “ 位 ”肉眼 可 见 ， 那 么 我 们 每 一 个 人 都 像 是 采 蜂 人 人 一样， 身上 附 了 里 
着 一 层 又 一 层 、 厚 厚 的 “位 ”数据 。 

再 继续 观察 下 午 3 点 , 正 坐 在 客户 公司 会 议 室 里 的 Dave Cheng, 从 两 
个 小 时 前 银行 保安 监视 摄像 头 捕捉 到 的 影像 ， 以 及 ATM ( 自动 柜员 机 ) 的 
记录 上 ， 可 以 知道 他 提取 了 5 万 元 ; 从 一 个 小 时 前 信用 卡 的 签单 记录 上 ， 
可 以 知道 他 喝 了 两 杯 咖啡 ， 而 移动 电话 公司 利用 他 的 通话 记录 定位 ， 发 现 
他 的 活动 范围 几乎 都 在 东区 ， 短 短 两 个 小 时 ， 又 是 好 几 亿 位 数据 的 产生 。 
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我 们 所 面 对 的 ， 不 只 是 一 群 随时 产生 数据 的 个 人 ， 更 是 一 个 不 断 被 
数据 淹没 的 大 数据 新 世界 。 

每 一 秒 , 一 家 大 型 医院 会 产生 12 万 笔 生理 健康 数据 ;每 一 分 钟 ， 
YouTube 网 站 上 传 影 片 的 总 长 有 72 小 时 ; 每 一 天 , 一 家 银行 要 处 理 500 万 
笔 信用 卡 交易 、 一 个 Twitter 网 站 上 有 2.3 亿 条 tweet。 

如 果 再 加 上 全 世界 同一 时 间 约 有 超过 5 亿 部 智能 手机 、10 亿 台 计算 
机 和 数 万 亿 个 传感器 同时 运作 ， 所 产生 的 各 种 文字 、 声 音 和 图 片 数 据 ， 
每 一 天 制造 出 来 的 数据 量 估计 高 达 25 亿 GB ( 吉 字 节 )， 等 于 要 用 4000 

É 64GB 的 iPad 才能 装载 。 而 且 ， 光 是 过 去 两 年 ， 人 们 制造 的 数据 就 
占 了 当今 全 球 数据 总 量 的 90%. 
依照 这 种 每 年 约 50% 的 增长 速度 计算 ， 科 技 研究 公司 IDC 估 测 ， 
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到 了 2020 年 全 球 数 据 总 量 将 增长 44 倍 , 达到 35.2ZB ( 泽 字 节 , 相当 于 
1 万 亿 GB )。 如 果 把 这 些 数据 全 都 装 在 64GB iPad 里 ， 这 些 iPad 迭起 来 
的 高 度 足 足 可 堆 出 超过 13 万 座 玉 山 ( 位 于 中 国 台 湾 省 中 部 ,海拔 3997 
米 ， 是 台湾 地 区 的 最 高 峰 )。 

ZB 到 底 有 多 大 ? 有 人 形容 ZB 等 级 的 数据 量 就 像 全 世界 海滩 上 的 沙 
子 数 目 一 样 多 ， 更 惊人 的 是 ， 它 还 在 不 断 蔓延 ! 如 果 以 每 一 分 钟 在 网 络 
世界 流动 的 信息 量 来 看 ， 当 你 打上 关键 词 ， 按 下 “Google 搜索 ”的 这 一 
刻 ， 其 实 你 只 是 200 万 人 中 的 1 A; 当 你 写 好 电子 邮件 ， 按 下 “传送 ” 
的 那 一 刹那 ， 这 封 电子 邮件 也 只 是 2 亿 封 其 中 的 1 封 。 

其 他 更 惊人 的 一 分 钟 网 络 数据 资料 包括 : 





@ Facebook 上 产生 超过 68 万 条 内 容 ; 

O 超过 27 万 美元 的 网 络 购物 交易 ; 

© 苹果 商店 里 的 APP 被 下 载 达 47 000 次 ; 
@ Flickr 用 户 分 享 了 3125 张 照片 ; 

O 有 217 名 移动 网 络 新 用 户 诞生 。 


请 记 住 , 上 述 的 数据 只 是 现 况 ， 而 未 来 呢 ? 思科 视觉 网 络 指数 ( Cisco 
Visual Networking Index) 发 现 ， 以 前 人 们 只 用 计算 机 上 网 ， 但 现在 , 通 
过 计算 机 、 手 机 、 平 板 电脑 等 多 种 设备 随时 上 网 的 生活 形态 ， 已 逐渐 成 
为 文明 世界 的 常态 。2011 年 ， 全 球 网 络 联机 设备 为 103 亿 个 ， 以 地 球 上 
的 70 亿 人 口 计 算 ， 每 个 人 分 配 到 1.4 个 ，2016 年 前 网 络 联机 设备 总 数 将 
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增长 至 189 亿 个 ， 等 于 每 人 约 有 2.5 个 。 
图 1-1 









“=> 2 000.000 次 
网 络 搜索 查询 









Wordpress 
用 户 发 表 
347 篇 
博客 文章 






Facebook 使 用 
F 684478 
Er 条 内 容 
















消费 者 在 网 络 上 
》 消费 上 花费 


272 070 美元 
























Flickr 
用 户 新 增 
3125 张 照 片 





Twitter 使 用 者 
发 出 超过 
100 000 条 tweet 


蕴 果 商店 里 的 



















App 
各 品牌 、 组 织 被 下 载 达 
在 Facebook 47 000 次 
上 被 点 “ 赞 ” 
34722 次 













在 中 











台湾 省 ， 每 个 人 拥有 一 人 台 台 式 计算 机 、 一 台 笔记 本 电脑 、 一 
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部 智能 手机 ， 是 再 普通 不 过 的 基本 配备 ， 现 在 可 能 还 要 加 上 一 台 平 板 电 
脑 。 而 人 们 “随时 在 线 ” 也 让 全 球 网 络 流量 正 以 一 年 增长 1ZB 的 速度 增 
加 当中 , 2016 年 前 将 达到 1.3ZB, 平均 流量 将 达到 每 秒 245TB (KFH ), 
相当 于 有 200 万 人 同时 观看 高 清 影片 。 

为 什么 数据 量 暴 增 的 速度 会 这 么 快 ? 因为 这 个 世界 已 经 变 了 ， 变 得 
感知 化 (instrumented )、 物 联 化 ( interconnected ) 和 智能 化 ( intelligent )。 

简单 来 说 ， 所 有 的 物体 ， 包括 风 、 流 水 、 空 气 中 的 湿度 ， 都 能 被 感 
测 ， 这 就 是 感知 化 ; 感 测 过 程 中 产生 大 量 的 数据 ， 需 要 输送 到 后 台 进 行 
处 理 ， 这 就 是 物 联 化 ; 而 获取 数据 只 是 一 个 手段 ， 最 终 目 的 是 要 从 庞杂 
巨 量 的 数据 资料 中 ， 分 析出 有 用 的 信息 ， 帮 助人 们 做 出 决策 ， 这 就 是 智 
能 化 。 





图 1-2 大 数据 的 3i 新 世界 
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感知 化 的 世界 





“感知 化 ” 指 的 是 数据 源 的 变化 。 你 或 许 没有 感觉 到 , 大 量 内 建 芯 片 、 


而 这 3 个 “ 记 ， 也 分 别 反映 了 数据 源 、 传 送 方式 和 使 用 方法 的 改变 。 


#148 


大 数据 新 世界 


15 





F 以 更 灵敏 地 E eae 
REE (transistor ); 技术 突破 与 普及 








EERE, 每 隔 -18 到 : ?个 

_ 本 等 比例 下 降 .二 amie Re ES z GERERE S. 

AS, TERRE a Le 
ITERA i ee Bic aa 











3 二 六 时 人 未 手 级 应 用: 


大 数据 分 析 - 





越 来 越 多 芯片 被 “ 植 入 ”我 们 的 生活 之 中 记录 它们 接收 到 的 每 一 
个 指令 。 其 中 ， 也 有 极 大 量 的 芯片 被 制 成 传感器 与 电子 卷 标 ,再 置 入 到 
“监控 摄像 头 、 大 楼 温 湿度 传感器 、 医 院 检 查 仪器 、 风 力 发 电机 和 大 卖场 
中 的 无 线 射频 识别 系统 (RFID) 中 ,各 种 各 样 、 总 数 上 万 亿 的 电子 设备 
不 受 时 间 限制 地 感 测 着 人 们 工作 、 购 物 和 休闲 的 各 项 动态 。 

例如 这 两 年 来 ， 全 世界 的 电力 公司 为 了 节省 能 源 ， 发 力 研发 的 智能 
型 电表 ， 就 运用 了 大 量 的 传感器 ， 一 天 24 小 时 不 停 欢 地 测量 、 提 取 和 传 
输 终端 用 户 的 用 电量 信息 Rei 

对 消费 者 来 说 ， 这 些 电表 实时 反映 出 家 里 的 耗 电量 与 电费 信息 ， 
也 可 依据 现 阶段 用 电量 估算 未 来 24 小 时 的 电费 会 增加 多 少 , 有 助 于 用 
户 控制 和 调整 用 电 的 习惯 ， 对 企业 而 言 ， 电 表 则 变 成 远程 的 监控 传 感 
器 ， 帮 助 它 随时 掌握 电网 供电 的 状态 ， 万 一 耗 电量 瞬间 舰 高 、 可 能 超 
过 电网 负荷 时 ， 电 力 公司 就 能 提早 采取 应 变 措 施 ， 大 大 减低 了 无 预警 
停电 的 概率 。 

电表 、 水 表 、 煤 气 表 ， 这 类 智能 型 仪表 已 大 量 被 嵌入 到 全 世界 各 
类 的 器 具 中 ， 不 仅 装 设 数量 惊人 ， 而 且 很 快 就 会 存在 于 每 一 个 人 的 家 
里 ，24 小 时 记录 着 每 一 个 用 户 的 能 源 消耗 量 ， 然 后 捕捉 、 测 量 和 传递 
数据 。 

为 了 不 间断 地 计算 流量 ， 一 个 智能 型 仪表 需要 至 少 每 秒 检查 簧 片 开 
关 状 态 20 次 ， 至 少 每 15 秒 钟 就 要 建立 一 个 无 线 数据 封包 ， 并 将 这 些 数 
据 传输 到 无 线 发 射 器 进行 传送 ， 这 也 是 目前 最 难以 计数 且 大 量 增加 的 新 
数据 源 。 











y 





物 联 化 的 世界 





一 物 联 化 " 指 的 是 数据 传送 方式 的 变化 .根据 联合 国 公布 的 统计 数字 ， 


目前 全 球 网 络 的 使 用 人 口 已 经 突破 20 亿 大 关 ， 使 用 手机 的 人口 更 已 突破 := 


50 亿 ; 而 计算 机 、 手机 等 3C 产品 都 可 以 和 前 面 提 到 的 上 万 亿 个 ; 可 能 来 
一 自 汽车 、 电 器 、 道 路 ”自来水 管 ， 基于 是 食物 包装 全 的 传感器， 彼此 链 
接 并 交换 信息 。 

当 机 器 与 人 类 社会 系统 全 面 互 连 瑟 通 时 ， 所 创造 出 来 的 各 类 数据 量 
非常 庞大 ， 也 难怪 有 分 析 师 估计 ，“M2M”( machine-to-machine， 机 器 对 
机 器 ) 每 年 可 带动 超过 两 位 数 的 数据 量 增 长 。 F 
。，M2M 的 运用 主要 是 通过 移动 通信 (手机 ) 为 核心 ， 对 设备 进行 有 效 
控制 。 从 狭义 的 定义 来 看 ，M2M 是 代表 机 器 和 机 器 之 间 的 自动 通信 ， 而 
且 不 只 是 简单 的 传输 数据 而 已 。 换言之 ， 即 使 人 们 没有 发 出 信号 ， 机 器 
也 会 根据 既定 程序 主动 进行 通信 ; 基 至 根据 所 得 到 的 数据 做 出 第 选 后 再 


传输 。 


以 这 些 数据 的 流动 量 来 看 ，2010 年 底 时 还 只 有 3% 的 网 络 流量 来 自 


电视 、 平板 电脑 、 智能 手机 以 及 机 器 对 机 器 ( M2M ) 模块 等 非 PC 设备 ， 


二 但 预计 到 了 2015 年 时 4E PC 的 网 络 流量 将 增长 到 13%, 其 年 复合 增长 = 
率 分 别 为 电视 的 101%, 平板 电脑 的 216%; 智能 手机 的 144%、 M2M a 
块 的 258%。 以 增长 潜力 最 大 的 M2M 来 说 ， 届时 全 球 会 有 150 亿 台 机 器 ， 
可 以 不 通过 人 工 的 介入 直接 互联 
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目前 ，M2M 大 多 应 用 在 远程 监视 、 控 制 、 以 及 数据 追踪 和 供应 链 管 
理 上 。 例 如 ， 为 了 应 对 层出不穷 的 食品 安全 问题 ， 山 东 省 商业 集团 正在 
导入 一 套 猪肉 生产 追溯 管理 系统 ， 这 套 系统 广泛 使 用 了 监测 设备 与 运送 
猪肉 的 多 元 数据 ， 从 生产 源头 农户 、 肉 品 加 工 到 零售 店 的 整个 商品 流通 
过 程 全 面 互 连 。 

这 套 系统 链接 了 条 形 码 、 温 度 和 湿度 传感器 以 及 全 球 卫 星 定位 系统 
CGPS ) 等 不 同 技术 的 多 元 数据 ， 可 以 对 生产 、 流 通 和 零售 等 各 阶段 的 猪 
肉 产品 状态 统一 管理 ， 如 果 消 费 者 因 食用 猪肉 而 健康 受 损 ， 可 以 立即 确 
定 销售 猪肉 的 店铺 ， 也 就 可 以 尽快 实施 包括 下 架 、 回 收 等 应 对 措 失 。 

首先 , 在 生产 阶段 ,屠宰 场 内 装 设 RFID 设备 ,收集 猪 从 进 场 到 宰杀 ， 
以 及 运送 前 各 个 流程 处 理 的 数据 ， 保 障 肉 品 处 理 流程 的 效率 ， 也 避免 因 
为 某 环节 的 疏失 ( 如 某 批 肉 品 未 及 时 装运 ) 而 影响 肉 品 质量 。 

其 次 ， 在 运送 阶段 ， 运 送 货车 采用 温 湿度 传感器 、GPS 与 地 理 信息 
系统 (GIS )， 每 隔 一 段 时 间 传 送 货品 温 湿度 和 所 在 位 置 回 中 心 主 系统 。 
要 是 货柜 内 温 湿度 不 符合 标准 ， 系 统 便 会 自动 提醒 负责 人 员 采 取 相 对 应 
的 行动 ， 及 时 排除 问题 肉 品 进 入 销售 链 的 可 能 。 

最 后 ， 在 零售 阶段 ， 超 市 结账 人 员 通过 产品 上 的 条 形 码 和 柜台 的 收 
银 系统 一 一 扫描 记录 每 件 生 鲜 猪肉 商品 销售 的 时 间 和 地 点 ， 如 果真 的 有 
消费 者 食用 猪肉 后 生病 而 通报 ， 主 管 机 关 就 可 循 着 线索 找到 贩卖 猪肉 的 
店铺 ， 并 且 尽快 召回 同 批 出 厂 的 问题 产品 。 除 了 猪肉 之 外 ， 这 套 系 统 也 
将 运用 在 海鲜 和 鸡肉 等 生 鲜 的 生产 管理 上 。 

随 着 装载 微型 芯片 的 电子 设备 互 连 日 益 紧密 , M2M 的 定义 已 经 扩展 
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CMRI, 现在 都 能 够 具备 计算 机 计算 能 力 并 且 传送 数据 3 
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如 云端 技术 ， 或 是 把 传统 计算 ” 
行 行 计算 架构 的 Hadoop, (axi 13 D: 就 能 名 整合 


打败 人 脑 的 超级 计算 机 “ 华 生 ”( Watson) 为 例 ， 在 经 过 3 天 激战 、 一 次 
宕 机 之 后 ， 它 最 后 击败 了 该 节目 史上 两 位 最 强 的 高 手 詹 宁 斯 ( Ken 
Jennings ) 及 拉 特 (Brad Rutter )， 赢 得 100 万 美元 奖金 ， 也 改写 了 超级 计 
算 机 的 历史 。 

华 生 是 以 2 800 个 处 理 器 核心 、16 万 亿 字 节 的 工作 内 存 运转 ， 每 秒 
计算 能 力 高 达 80 万 亿 次 。 得 知 问题 之 后 ， 它 得 先 针 对 句子 中 的 名 字 、 数 
据 、 地 理 位 置 或 其 他 条 件 ， 运 用 600 万 条 你 辑 指令 层 层 分 析 才 能 找到 正 
确 答案 ， 而 找到 答案 之 后 ， 还 要 快速 控制 金属 手指 按 铃 抢 答 。 

WA, 即使 华 生 内 建 了 2 亿 页 、4 万 亿 字 节 的 百科 知识 库 , 但 它 不 仅 
要 熟知 重要 的 历史 人 物 、 文 学 、 科 学 、 艺 术 、 娱 乐 及 游戏 策略 等 知识 ， 
还 要 了 解 笑 话 、 双 关 语 、 讽 刺 语 及 谜语 等 隐喻 ， 才 有 可 能 答对 这 些 复杂 
甚至 藏 有 陷阱 的 题目 。 

我 们 以 比赛 中 的 题目 之 一 为 例 , “以色列 的 摩西 达 扬 ( Mosche 
Dayan ) 是 以 什么 装饰 让 全 世界 都 认识 的 ? ”以 计算 机 的 计算 方式 来 说 ， 
华 生 要 先 确 认 “ 达 扬 是 一 个 地 方 吗 ? 还 是 一 个 人 名 ? 或 是 一 处 《圣经 》 
提 过 的 圣 迹 ? ”之 后 它 要 从 以 色 列 军队 、 名 人 语录 、 甚 至 穿着 风格 等 来 
判断 这 是 一 个 人 名 ， 再 从 数 百 种 可 能 的 答案 中 挑 出 一 项 正确 答案 。 

这 位 以 色 列 前 国防 部 长 达 扬 将 军 的 左 眼 眼 音 是 他 的 著名 象征 ， 华 生 
必须 在 3 秒 钟 以 内 回答 出 正确 答案 才 有 机 会 获胜 ， 而 华 生 做 到 了 。 你 可 
能 不 知道 ， 这 个 益 智 节目 中 所 抽样 的 两 万 个 问题 中 ， 有 高 达 2500 种 题目 
类 型 ， 而 要 回答 其 中 一 个 简单 的 问题 ， 一 般 计 算 机 则 要 花 两 小 时 ， 原 因 
就 在 于 听 得 懂 人 类 语言 、 能 够 和 人 类 谈话 对 计算 机 来 说 难 如 登 天 。 
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SEAT AREE a 变化 远 此 关键 记 搜索 困难 太 多 了 ， 因为 人 类 在 日 
常 沟通 时 就 常常 语意 模糊 不 精确 。 以 =- 道 华 生 答 错 的 题目 为 例 ， 题 目 


= = 是 “有 一 本 小 说 的 书 名 及 1957 年 一 部 电影 的 片 名 灵感 都 来 自 于 这 个 东西 ， 


它 横 跨 湄公河 (Mae Khlung )"。 答案 是 GEMAH), 但 其 实 华 生 没 答 
对 是 很 合理 的 ， 因为 其 实 桂 河 大 桥 并 不 如 题目 所 说 的 模 跨 湄公河 ， 而 是 
建造 在 桂 河 上 ， 而 桂 河 则 是 湄公河 的 支流 。 

我 们 不 能 说 计算 机 已 经 打败 了 人 脑 ， 因 为 华 生还 无 法 在 词汇 有 雇 误 
时 精准 地 排 错 ， 在 比赛 过 程 中 的 按 铃 速度 也 常常 比 人 类 对 手 慢 上 一 步 ， 
但 它 的 确证 明了 机 器 不 仅 能 收集 、 储 存 庞大 的 数据 ， 还 已 经 能 像 人 类 一 
样 思 考 。 事实 上 ， 我 们 日 常生 活 里 拥有 的 终端 设备 ， 也 已 经 有 了 不 同 程 
度 的 “智能 "判断 哪些 程序 或 功能 的 使 用 状况 ， 或 是 或 该 用 什么 方式 传 
送 与 处 理 数据 。 


让 数据 不 只 是 数据 


这 就 像 是 在 智能 手机 安装 了 各 种 各 样 的 APP 应 用 程序 , 有 些 APP 需 
要 传输 和 处 理 数据 ， 例 如 天 气 预报 APP 需要 链接 气象 局 的 数据 系统 ， 或 
是 运用 卫星 定位 系统 呈现 用 户 所 在 地 的 卫星 云图 。 相 比 之 下 ,手机 里 内 建 
的 单机 小 游戏 或 是 记事 本 等 程序 ， 就 不 必 传输 或 处 理 这 么 大 量 的 数据 。 

智能 手机 之 所 以 “智慧 "， 是 因为 它 有 判别 能 力 。 在 处 理 过 程 中 , 不 
是 每 笔 数据 都 值得 分 析 ， 也 不 是 每 一 次 分 析 数据 都 要 动用 到 全 部 的 计算 





数据 送 入 分 析 之 前 ， 数 据 源头 的 设备 和 数据 汇集 的 节点 一 








: E Se TD & He KEAN ee 


”二 姓 后 名 的 格式 客户 iD LOE IT RAYE H A. PNAN 
“区 的 邮政 编码 统一 采 5 码 而 非 3 码 的 格式 等 ， 再 连 到 大 脑 ( 主 核心 计算 ， 
PL; 大脑 不 用 浪费 时 间 和 效能 进行 重复 比 对 ， 就 知道 这 是 同一 个 人 的 数 
- 据 : 如 此 二 来 ;数据 分 析出 来 的 结果 也 会 更 即时 、 更 准确 。 


.如 果 机 器 无 法 智能 化 ， 即使 有 了 “感知 化 ”与 “ 物 联 化 ” 的 设备 ， 


“被 产生 、 收集 和 传送 的 数据 也 只 能 被 竺 存 下 来 ， 而 无 法 用 来 分 析 和 辅助 
决策 ,那么 ， 数据 就 水 远 是 数据 。 但 也 是 因为 机 器 被 赋予 了 更 高 的 智 束 ， 


产生 了 更 多 的 思考 结果 ， 更 多 的 数据 也 随 之 而 生 。 


要 的 和 


在 感知 化 、 物 联 化 和 智能 化 的 交会 下 ， 就 好 像 把 调节 水 量 的 3 首 册 





二 门 同时 开启 二 样 ， 允 及 各 处 的 数据 基 ， 人 原本 的 沁 肖 细 流 汇流 成 磅 确 大 


SM, FRAIER = 一 = 
一 在 如 此 巨 量 的 数据 冲击 下 ， 这 已 经 不 是 一 个 简单 的 数据 增加 问题 ， 
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”而 是 一 场 量变 形 成 质 变 ， 是 以 下 天 20 世纪 科技 草 命 的 巨大 变革 
2012 年 2 月 ， 物理 学 家 迈 尔 斯 Mark P: Mills ) 和 美国 西北 大 学 应 用 
和 科学院 长 欧 提 诺 (iaio m. Ottino) AE CEREBRO EX: 认为 100 年 - 
“前 出 现 了 电气 化 、 电话 、 汽 车 、 不 锈 钢 和 无 线 电 放大 器 等 机 器 ， 改变 了 
一 人 们 的 生活 方式 INR 100. 2. 我 们 再 度 站 在 时 代 变 革 的 起 点 。 而 再 次 
“改变 世界 的 推力 之 二 ， 就 是 伴随 着 无 数 机 器 而 来 的 大 数据 分 析 - ; 
; 哈佛 大 学 量化 社会 科学 学 院 ( Institute for Quantitative Social Science) 
KENE (Cary King VIA, TEA ABERRIA OEE ACE 
SR QS ARIE AR EEK, BAW i a RW 
TE MAE EL Te AL 9 A 
进一步 改变 人 们 的 生活 方式 ， 甚 至 引领 新 一 波 的 经 济 繁荣 。 
2012 年 的 伦敦 奥运 会 才 落 幕 不 久 , 令 天 家 惊艳 的 不 仅 是 精采 的 赛事 ， 
还 有 历史 悠久 的 英伦 之 都 ， 如 今 已 运用 大 数据 暗 变 成 一 个 智慧 城市 。 
拥有 149 年 历史 的 伦敦 地 铁 ，11 条 路 线 全 长 超过 400 公里 ， 沿 线 建 
有 270 座 车 站 ， 每 年 运送 10 亿 人 次 。 为 了 让 地 铁 干线 正常 运行 ， 伦 敦 地 
铁 里 的 每 辆 火车 都 有 GPS， 站 台 上 的 乘客 随时 可 以 在 显示 牌 上 了 解 下 一 
| 趟 车 的 抵达 时 间 ， 站 台 上 布 满 无 数 的 传感器 ， 交 等候 的 乘客 人 数 提供 给 
控制 中 心 ， 让 调度 人 员 可 以 灵活 控制 车 次 和 出 车 时 间 间 隔 。 
同时 , 为 了 快速 得 到 最 新 的 流动 信息 ( 例如 进出 站 人 数 、 等 候 人 数 )，、 
伦敦 地 铁 站 内 也 铺设 了 无 线 局 域 网 络 (Wi-Fi ), 而 现在 ;任何 人 都 可 以 在 
地 铁 站 里 通过 免费 的 Wi-Fi， 用 手机 查看 地 铁 实 时 动态 地 图 ， 以 及 接收 各 
种 地 理 位 置 的 便利 信息 ; 博物 馆 、 艺 术 中 心 、 歌 剧院 、 或 是 酒吧 也 都 有 








any 云端 时 代 杀 手 级 应 用 : 








RIMM APP, ARSA, ZA ASHE, RMON 
无 线 网 络 获得 丰富 而 详尽 的 免费 数据 。 
全 地铁 站 直到 街 上 :伦敦 是 欧洲 第 一 个 对 汽车 进入 市 中 心 要 额外 课 
税 的 城市 .由 于 交通 拥塞 ， 人 们 可 以 在 停车 高 峰 时 段 ， 用 手机 上 网 实时 
查询 停车 位 的 空置 情况 ， 并 且 下 单 预订 停车 位 ， 因 为 只 要 随意 停车 ， 伦 
敦 交管 会 用 掌上 电脑 在 你 车 前 的 条 形 码 上 扫描 一 下 ， 包 括 这 辆 车 的 车 速 ， 
停车 记 录 、 未 缴 妆 记录 等 各 种 信息 全 都 无 所 通 形 ， 几 秒 后 罚单 就 从 徊 察 
手中 的 小 型 计算 机 里 直接 打印 出 来 。 pi 
另 一 方面 ， 为 了 应 对 奥运 期 间 酒 入 的 百 方 游客 ， 伦 敦 街头 设置 了 超 
过 100 个 配置 液晶 屏幕 的 智能 型 垃圾 桶 ,与 Wi-Fi 相连 , 不仅 可 以 指示 民 
众 如 何 分 类 处 理 垃圾 ， 还 可 以 显示 天 气 ， 气温 、 时 间 、 股 市 行情 等 里 
面 内 茂 的 微型 摄像 头 也 可 以 防止 街头 犯罪 和 丽 怖 攻击 。 
伦敦 以 天 量 数据 和 科技 设备 建构 了 一 个 数字 化 的 智慧 城 : 但 伴随 而 
来 的 则 是 更 大 量 的 数据 ， 为 此 伦 喜 市 政府 建立 一 个 城市 网 络 数据 中 心 。 
每 一 个 公务 员 都 要 把 公共 数据 丢 进 这 个 包括 交通 、 安 全 、 经 济 发 展 和 旅 
洲 业 的 开放 式 数据 库 里 。 民 从 可 以 从 这 里 取得 交通 拉 堵 数据 的 实时 更 新 、 
地 铁 业 务 指南 ， 或 是 自行 车 出 租 计 划 的 取 车 地 点 分 布 ， 也 可 以 自行 经 过 
_ 切 着 分 流 ， 将 这 些 数据 放 到 自己 的 个 人 计算 机 和 其 他 电子 半 思 里 进 一 























“一 新 世界 的 新 竞争 力 


”成 臣 运 用 天 数据 分 析 打 造 产 凤 戏 的 伦敦 ,已 成 为 全 英国 未 来 10 年内“ 
发 展 的 重要 依据 。 英 国 智库 政策 交易 所 ( British think tank Policy 0 e 
, "mdeni EUR ES HRANY, JRA TC Ta i 
一 一 一 效率 及 削减 浪费 ， 一 年 可 能 省 下 160 A330 ase? 
a 2 一 美国 蜗 巴 马 破 府 也 将 大 数据 分 析 视 为 下 一 步 的 国家 发 展 让 略 ， BE GETH S" 
一。 在 201z 年 3 月 宣布 投资 2 亿美 元 启动 “大 数据 研究 和 发 展 计划 ;包括 oT 
大 数据 分 析 以 及 大 数据 在 医疗 天 气 和 国防 等 领域 的 应 用 。 自 官 其 至 将 ” ， tas 
EREA ARE BETZ 个 国家 拥有 数据 资料 的 规 
模 和 解释 运用 的 能 力 ; 已 成为 一 个 国家 的 核心 资产 和 国力 指 标 。 = 
数据 分 析 运用 的 重要 性 对 国力 如 此 ; 对 企业 竞争 力 更 是 如 此 :- 在 零 -… 
售 业 ， 美 国 的 沃尔玛 公司 很 时 就 开始 利用 事务 数据 库 来 赢得 竞争 优势 
‘969 JERSE WOR DIGRESS, 1983 年 于 有 ii 开始 末 用 条 
形 码 扫 撒 系统 ;每 一 样 商品 的 “身份 ”都 可 以 存 进 计算 机 数据 库 ;1987 年 = 

RAWEKE, ICRA OTR 1 (AE Te OT 
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管理 人 员 分 析 销 售 数字 时 发 现 了 一 个 令 人 难以 理解 的 现象 : 啤酒 和 尿布 
这 两 件 毫 无 关联 性 的 商品 ， 销 售 数字 确 有 着 难以 理解 的 高 度 正 相关 ， 尤 
其 是 在 年 轻 爸 爸 的 购物 车 里 。 后 来 发 现 ， 这 是 因为 年 轻 夫妻 的 分 工 形态 ， 
通常 是 由 妈妈 在 家 照顾 小 孩 ， 而 爸 爸 外 出 购物 ， 而 买 小 孩 尿布 时 ， 和 爸爸 
们 通常 也 会 带 个 自己 想 喝 的 啤酒 回 家 。 

沃尔玛 发 现 了 这 个 独特 的 现象 ， 开始 在 卖场 党 试 将 啤酒 与 尿布 摆 放 
在 相同 的 区 域 ， 让 年 轻 爸 爸 可 以 同时 找到 这 两 件 商品 ,并且 很 快 地 完成 
购物 。 调 整 之 后 ， 结 果 尿 布 和 啤酒 的 销售 量 双双 增加 3 成 。2005 AER AR 
娜 飓风 来 袭 之 前 ， 沃 尔 玛 也 用 相同 的 逻辑 ， 从 手电 简 和 电池 的 销售 数据 
申 分 析出 馅 饼 将 会 热 销 ( 因为 飓风 来 袭 时 导致 停电 ， 所 以 人 们 特别 喜欢 
方便 食用 的 馅 饼 ) 而 把 手电 简 和 电池 货架 移 到 冷冻 柜 旁 ， 业 绩 果然 也 如 
预期 增长 。 

西班牙 品牌 ZARA， 则 是 运用 数据 分 析 引 领 快速 时 尚 ( Fast Fashion ) 


风潮 的 崛起 。 每 天 ，ZARA 平均 卖 出 110 万 件 衣服 ， 通 过 全 球 信息 网 络 , 


每 一 件 销售 出 去 的 商品 都 有 自己 的 销售 身份 证 ( 包含 售 价 、 部 门 、 时 段 : 
客户 层 )， 这 些 数 据 经 过 自动 化 程序 分 析出 顾客 的 行为 模式 和 消费 喜好 ， 
做 为 产品 的 生产 决策 ， 让 ZARA 最 短 3 天 就 可 以 推出 一 件 新 品 ， 一 年 可 
推出 12 000 款 时 装 。 

在 职业 运动 业 ， 全 世界 获得 主要 洲际 赛事 冠军 最 多 的 球 队 AC 米兰 ， 


… 也 利用 每 一 场 赛事 的 影音 文件 分 析 球 员 数 据 ， 进 行 球员 的 运动 损伤 预防 - 


和 治疗 管理 ， 精 准 度 高 达 70%， 而 在 一 个 完整 赛季 中 ， 因 为 球员 损伤 而 


_ 无 法 比赛 的 天 数 减少 了 23。 后 来 ,美国 职 棒 的 波士顿 红 袜 队 、 旧 金山 巨 












影响 = 








人 队 和 密 耳 瓦 基 酿 酒 人 队 开 始 跟 进 , 甚至 依 此 模式 发 展 了 一 套 3D 影像 特 
训 法 , 把 对 手 和 自家 选手 的 图 像 文件 变 成 3D 显 像 , 可 以 从 任何 方向 观看 、 
向 前 转 和 倒转 ， 并 加 以 解析 ， 打 者 可 以 反复 比 对 同一 投手 的 不 同 球 路 ， 
或 是 利用 3D 眼镜 和 拟 真 的 动画 对 手 ( 动作 依 特定 真实 对 手 的 统计 数字 量 
身 打造 ) 对 战 ， 以 增进 球员 的 战 力 。 

而 在 公共 领域 中 ， 数 据 分 析 的 预测 能 力也 正在 开发 当中 。4 年 前 ， 
Google 和 美国 疾病 控制 及 预防 中 心 合作 ， 以 关键 词 搜索 次 数 发 展 了 
Google Flu Trends， 协 助 “ 追 踪 ” 流 感 传播 趋势 ， 至 少 可 以 提早 两 个 星期 
掌握 流感 爆发 的 关键 时 刻 。 哈 佛 大 学 最 近 一 篇 医学 研究 报告 也 发 现 ， 通 
过 Twitter 监控 海地 的 霍乱 疫情 比 以 传统 方式 监控 来 得 更 为 有 效率 ， 如 
果 再 配合 政府 与 金融 机 构 的 数据 更 可 以 发 现 食物 与 水 资源 短缺 的 早期 
征兆 。 

联合 国 “ 全 球 脉动 ”( UN Global Pulse ) 研究 计划 ， 更 进一步 利用 社 
交 网 站 、 网 络 论坛 和 博客 帖子 进行 “情绪 分 析 "， 预 测 失业 率 。 研 究 中 发 
BL, 失业 率 上 升 的 3 个 月 前 ， 网 络 上 关于 就 业 问题 的 抱怨 或 泪 丧 发 言 就 
会 开始 增加 ， 而 在 失业 率 上 升 后 的 2 个 月 和 3 个 月 ， 则 是 房屋 亏损 和 缴 
不 起 车 贷 的 话题 会 增加 ， 此 时 房地产 业 、 汽 车 业 的 购买 人 气 也 开始 受到 


人 类 科学 的 范式 转移 


二 云端 时 代 杀 手 级 应 用 “一 a Se 

























管理 风险 的 方式 ; 同时 也 推动 人 类 科学 研究 进入 一个 新 范式 。 





k. 《第 四 范式 (The Fourth. Paradigm: “Data “Intensive Scientific satis = T Ea : 
"$, OE E ERRARE, IPER ce =n 
_. 展 已 经 走 过 了 “ 实验 理论 、 计算” 3 个 范式 ， 渐渐 形成 以 数据 为 重 -一 a 









MEIE, AFERTA A 个 阶段 ， 几 半年 前 是 实验 各 
学 ， 主 要 是 描述 自然 现象 ， 过 去 几 百 年 是 理论 科学 ， 描 述 的 是 物体 运动 
现象 的 牛顿 定律 ,或 是 描述 电磁 现象 的 马克 斯 书 尔 方程 组 ( Maxwells. 55; 
ee 
-超级 计算 本 仿真 复杂 的 各 种 现象 和 人 : ee 

从 到 了 今天 ;新 范式 是 数据 密集 型 科学 ， 也 就 是 理论 -实验 和 模拟 

的 汇 整 。 未 来 的 科学 发 展 ， 将 取决 于 不 同学 科 的 研究 者 如 何 彼此 合作 ， 

运用 密集 数据 技术 ， 改 善 处 理 流程 ， 并 通过 云 计算 的 分 散 平 行 处 理 技术 、 

TAJR, APR. DE. EMER. 

GL, AIEEE: ANAL APT RCE BO, E 

学 家 从 第 选 垃圾 邮件 的 过 程 中 ， 发 现 这 些 垃圾 邮件 有 类 似 “ 突 变 基因 " 
-的 设计 ， 以 便 躲 过 各 种 新 的 过 下 方法， 而 这 和 HIV 这 类 引发 出 区 流 病 的 
突变 型 病 有 相 他 之; 可 区 从 这 方面 找到 HIV 病毒 的 















通过 才学 演算 二 心理 学 家 ;经济 学 家 -生物 学 家 和 计算 而 科学 家 
a ee 








全 新 的 视野 开发 下 一 个 撼动 人 类 文明 的 新 发 明 。 
我 们 可 以 预见 ，21 世纪 最 伟大 的 发 现 之 一 ， 将 来 自 于 从 庞大 的 数据 

资料 中 找 出 的 新 型 态 ，21 世纪 最 伟大 的 工程 之 一 ， 将 是 仿真 人 性 的 数学 

模型 建构 。 在 这 个 由 数字 、 向 量 和 算法 构成 的 大 数据 新 世界 里 ， 整 个 世 

_ 界 就 是 创新 和 发 现 的 人 类 行为 实验 室 ， 不 管 你 愿 不 愿意 ， 置 身 其 中 的 你 

我 都 是 参与 者 ， 但 如 果 你 愿意 从 现在 开始 子 解 大 数据 带 来 的 冲击 和 影响 ， 

你 就 不 会 只 是 参与 者 ， 而 会 是 下 一 个 发 现 者 。 ey 
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T 907 年 击败 当时 国际 得 械 冠 军 卡 斯 帕 罗 夫 (Garry Kasparov) 的 超级 -二 o ia 
计算 机 “深蓝 "， 和 上 一 章 我 们 提 到 在 益 答 抢 答 竞 赛 中 打败 人 脑 的 “ 华 生 "， 
或 可 以 帮助 我 们 淮 释 大 量 的 数据 和 大 数据 分 析 的 不 同 。 ee 
在 人 类 努力 发 展 计算 能 力 下 所 诞生 的 “深蓝 "是 通过 将 象棋 的 游戏 - 
规则 转化 为 0 和 1 形式 的 算法 ， 扫 描 数 据 库 后 将 结构 人 的 查 淘 与 答案 配 、 
二 对; 计算 出 下 一 步 的 走 棋 策略 。 当 时 的 深蓝 把 计算 机 长 于 记忆 与 计算 的 - 

CROSSES, AANER T EJIE (AEN), 还 















而 计算 机 “ 华 生 ” 呢 ? 它 不 但 能 理解 主持 人 的 问题 还 能 在 短 
， 短 几 秘 钟 内 找 出 答案 ， 赶 在 两 位 超级 冠军 前 按钮 作答 ， 这 里 面 不 仅 o 
-大 水 到 对 人 类 自然 语言 (而 非 计算 机 程序 语言 ) OO, ERER 
百科 全 书 、 报 告 、 报纸、 书籍 等 大 量 的 人 类 知识 ， 并 且 从 中 评估 证 
立 假说 :评比 锥 理 ” 在 短 短 数秒 内 计算 每 一 个 答案 的 可 信和 度 ， 
最 后 从 让 选择 一 个 可 能 竹 最 大 的 让 确 答案 , 难度 可 是 比 下 柜 高 出 了 
RE. 
eee mit :和 ek CARER HER 文学 作品 、 网 络 
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-也 不 可 能 多 用 es Die. 





oe To JOET FEME F re eet Cee 
TEENIE “ 较 人 ”而 现在 的 数据 数量 “超大 ”而 已， 放大 的 


IE 以 股票 事务 数据 库 为 例 - 数据 库 收 到 的 第 上 个 字段 数据 被 设 定 为 
MM/DB/YYYY (格式 中 的 日 期 ) 第 2 列 是 一 个 12 位 数 的 数字 账号 -第 
3 列 则 必须 荐 3 到 5 位 字符 字段 的 股票 符号 。 

也 就 说 ， 数 据 库 中 的 每 一 笔 数据 都 要 以 事先 设 定 的 格式 ， 并 按 指定 
的 顺序 出 现 ( 可 以 表格 的 型 式 出 现 )， 但 这 上 只是 结构 化 数据 的 第 一 步 ， 接 
正 来 还 需要 进一步 让 数据 的 结构 更 清楚 。 我 们 以 A 公司 的 人 力 数据 库 来 
说 明 ， 员 工 数据 前 5 列 分 别 是 姓名 、 电 话 二 职位、 薪资 、 奖 金 ， 初 步 编 二 
码 的 呈现 形式 为 : 


Name (姓名 ) =Input Name=( 输 入 姓名 ) 
Phone (电话 ) =Input Phone ( 输入 电话 -) 
Fitle (职位 ) =Input Title (输入 职位 ) 

Salary ( 薪资 ) =Input Salary 《输入 金额 ) 
Bonus-( 奖金 ) =Input Bonus (输入 金额 ) 


在 输入 数据 时 二 得 依 以 上 的 设 定 输入 ， 才 能 让 数据 库 “ 认 得 ”这 是 
需要 处 理 的 “原始 数据 "。 

不 过 问题 来 了 ， 虽 然 这 是 每 一 个 员工 的 共同 数据 ， 但 是 其 中 的 “ 奖 
金 ” 栏 却 只 有 主管 职级 才能 领 到 ,所 以 要 把 这 些 原始 数据 结构 化 ， 我 们 
必须 把 程序 代码 改 成 : 


Employee.Name (姓名 ) =Input Name-( 输入 姓名 厂 
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Employee.Phone ( 电话 ) =Input Phone ( 输入 电话 ) 
Employee.Salary ( 薪资 ) =Input Salary ( 输入 金额 ) 
Employee.Title ( 职位 ) =Input Title ( 输入 职位 ) 
SupervisiorBonus ( 奖金 ) =Input Bonus ( 输入 金额 ) 


如 此 一 来 ， 我 们 才 可 以 将 员工 的 薪资 和 主管 奖金 分 开 计算 ,等 到 须 
从 数据 库 采 集 数据 、 进 行 薪资 结构 和 人 事 成 本 的 分 析 时 ， 判 别 出 各 个 变 
量 之 间 的 意义 与 关连 性 。 sa 

半 结 构 化 数据 则 是 属于 非 纯 表格 型 式 、 也 非 纯 文 本 型 式 的 数据 ， 例 
”如 XML 或 HTML 格式 的 网 页 数据 、 电 子 邮 件 和 办 公 处 理 文档 等 。 昌 然 
半 结构 化 数据 已 有 程序 编码 既定 的 逻辑 和 格式 ， 但 不 容易 被 数据 库 理解 ， 
尤其 是 内 容 含有 许多 不 必要 的 噪音 和 混杂 了 不 同 的 格式 。 

博客 就 是 半 结构 化 最 好 的 例子 。 为 了 排版 和 阅读 方便 ， 博 客 的 确 有 
相关 字段 、 分 隔 符 等 有 逻辑 的 程序 编码 ， 你 可 以 依照 “由 近 到 远 ” 的 方 
式 排列 文章 ， 也 可 以 依照 主题 将 文章 分 门 别 类 ， 或 是 在 固定 的 位 置 放 上 
照片 或 影 首 文件， 这 是 结构 化 的 部 分 ， 但 在 博客 中 这 些 数据 并 不 会 互相 
追随 ， 以 固定 的 模式 产生 关连 性 。 

例如 ， 你 可 能 不 是 每 篇 文章 都 会 放 上 照片 ， 也 不 是 每 天 都 会 放 上 影 
音 文件 ， 而 且 即 使 是 文字 ， 今 天 感触 良 多 写 了 1500 个 字 ， 而 明天 可 能 无 
事 发 生 只 写 了 20 个 字 。 或 者 ， 应 该 是 纯 文本 的 部 分 ， 却 多 了 其 他 形式 的 
描述 ， 例 如 在 文 未 放 上 一 个 笑脸 小 图 案 ， 或 是 图 释 ， 这 些 都 会 影响 未 来 
分 析 判 断 的 准确 性 。 











非 结构 化 数据 是 指 没有 固定 格式 、 难 以 以 统一 的 概念 或 远 辑 分 析 的 
数据 ， 这 类 数据 包括 文件 、 图 像 、 声 音 、 影 片 等 。 以 文件 为 例 ， 就 有 纯 
文本 档 、Word SCF. PDF 文档 等 不 同 的 格式 。 





结构 化 数据 


(Structured Data) ER 


电子 邮件 、 博 客 文章 等 


文件 、 图 像 、 声 音 、 影 片 等 










,i 分 本 之 所 以 开放 





-或 结构 化 的 mec msn a 之后 基 要 分 析 运用 


_ 如今， REA 4 KIME: si © K” T volume Je Wx p : = 


繁杂 ” (Variety ) 变化 飞 “ 快 ” (Velocity J AIEA “BE"-( Veracity )， Tie peas aOR 


已 让 政府 组 织 : 学 术 单位 和 企业 面 对 排 山 倒 海 而 来 的 数据 巨 浪 时 ， 开 
始 意 识 到 快速 蕊 延 的 大 数据 分 析 是 已 经 开始 , 且 永远 不 会 消失 的 挑战 ， 
“因此 对 大 数据 分 析 的 认识 必须 更 深 、 更 广 ， 才 能 建构 二 套 有 别 于 以 往 





a 于 不 确定 的 数据 3 
“(Data at Rest). Data ‘in Motion) {Data in Many Form (Data in Doubt) 。， 
据 、 反 应 时 间 仅 有 E, ARME.: 完整 、 


竺 处理 的 数据 。 短 短 / 
























统 保存 数 PB 数据 的 例子 也 比比 皆 是 。 根据 麦肯锡 调查 ,美国 17 个 


产业 中 就 有 15 个 产业 ， 
当 您 在 读 这 本 书 时 ,实际 的 数据 量 早 已 超过 此 时 的 预 


多 。 想象 一 下 ， 
fi To 


单个 公司 储 放 的 数据 量 比美 国 国会 图 书馆 更 


仔细 想起 ， Fei ae KARATE EBA. GI EEL 


皮 套 里 拿 出 来 看 时 间 ， 这 是 一 个 “事件 ”( event ); 
的 门 打开 时 ， 也 是 一 个 事件 ; 进入 公 
假 出 游 时 开车 经 过 电子 收费 站 、 下 班 后 上 网 在 iTunes, FAH 坐 在 沙 … 
BEL remeni, 全 个 动作 部 是 个 事 人 
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= “=Perabyte. (PB) -> 
“Exabyte (ÉB) 
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人 们 极 尽 一 切 可 能 地 追踪 和 记录 数据 ( 这 还 不 包含 分 析 已 经 储存 起 来 的 
数据 )， 饥 渴 地 转 积 数据 ， 为 的 就 是 应 对 多 变 的 环境 。 

例如 ， 一 家 远 在 欧洲 的 汽车 挡 风 玻 璃 制造 商 ， 期 望 能 预测 中 国 汽车 
的 增长 率 ， 以 便 在 这 个 全 球 企业 疯 饮 的 大 市 场 里 ， 制 订 更 为 精确 的 销售 
和 运营 计划 。 所 以 他 们 需要 收集 有 关中 国 汽车 产业 的 数据 、 全 世界 其 他 
的 汽车 产品 在 中 国 的 发 展 、 甚 至 是 中 国政 府 颁布 的 交通 政策 、 中 国 13 亿 
人 口 对 于 商品 的 消费 反应 。 这 些 分 析 预 测 结果 都 得 倚靠 大 量 的 、 非 传统 
的 数据 源 才能 分 析 。 

另 一 个 数据 量 大 增 的 推动 力 ， 来 自 无 所 不 在 、 大 量 增加 的 传感器 ， 
而 且 这 些 传感器 的 装 设 很 可 能 是 在 你 意 想不到 的 地 方 。 以 美国 明尼苏达 
州 的 密西西比 河 大 桥 ( the 1-35W Mississippi River Bridge ) 为 例 ，2007 年 
8 月 ， 这 座 有 40 年 历史 的 4 车 道 大 桥 ， 在 交通 尖峰 时 段 突然 倒塌 ， 造 成 
13 人 死亡 、 近 百人 受伤 ， 成 为 美国 自 1983 年 以 来 非 天 灾 或 外 力 因 素 , 所 
造成 伤亡 最 惨重 的 桥梁 崩塌 事故 ， 事 后 分 析 原 因 ， 可 能 是 因为 当地 持续 
暴 增 的 车 流量 ， 造 成 连接 跨 距 和 承重 柱 的 钢 梁 上 16 个 加 固 板 受 损 ， 桥 体 
无 法 承重 而 崩塌 。 

新 建 的 圣 安 东 尼 瀑布 大 桥 (St. Anthony Falls Bridge) 采用 高 性 能 混 
凝 土 制 成 ， 提 供 桥 体 强劲 的 支撑 力 以 及 高 度 抗 腐化 功能 ， 预 计 使 用 年 限 
高 达 百年 。 此 外 ， 为 了 避免 憾事 再 度 发 生 ， 桥 体 的 基底 部 份 安装 了 323 个 
传感器 ， 用 以 对 桥 体 结构 进行 永久 性 的 检测 ， 只 要 温度 或 湿度 稍 有 变化 ， 
或 是 发 生 承 载 量 骤然 增 减 的 异常 压力 点 、 都 会 立即 产生 数据 资料 ， 并 被 
拿 来 存放 、 分 析 和 判读 。 





现在 你 应 该 了 解 到 ， 在 这 个 处 处 布 满 传感器 ， 每 个 人 随时 可 以 上 网 
的 情况 下 ， 数 据 量 不 仅 大 ， 而 且 是 非常 大 ! 仅仅 10 年 前 ， 我 们 还 得 特别 
列 出 全 世界 有 哪些 企业 数据 仓库 中 心 的 数据 储存 总 量 超过 1 TB; 现在 ， 
光 是 个 人 家 用 的 计算 机 硬盘 容量 便 动 辆 超过 1 TB， 而 且 TB 已 经 不 够 用 
T, 现在 大 家 谈 到 数据 库 ， 谈 的 是 PB 级 的 存放 空间 和 计算 能 力 ,而 且 不 
可 避免 的 是 ， 未 来 还 会 朝向 ZB 级 迈进 。 
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除了 庞大 的 数据 量 之 外 ， 数 据 处 理 中 心 面临 的 另 一 个 新 难题 是 : 数 
据 种 类 繁杂 。 

传感器 、 智 能 型 设备 和 社交 科技 全 面 渗透 到 日 常生 活 和 工作 环境 中 ， 
企业 要 处 理 的 数据 也 越 来 越 复杂 ， 不 仅 有 传统 的 关连 式 数据 ， 还 有 来 自 
网 页 内 容 、 网 页 日 志文 件 (包括 单 击 流 )、 搜 索索 引 、 社 交 媒体 讨论 室 、 
电子 邮件 、 文 件 、 主 被 动 系统 感应 数据 等 各 种 各 样 原始 、 结 构 或 半 结 构 
的 数据 。 

而 且 ， 大 多 数 数据 无 法 以 传统 的 数据 库 技术 管理 。 既 有 的 系统 根本 
难以 储存 和 分 析 这 些 数据 ， 更 从 论 从 中 解读 出 什么 意义 了 。 尽 管 有 些 企 
业已 经 很 积极 地 想 要 驾驭 大 数据 分 析 ， 但 是 绝 大 多 数 的 企业 ， 现 在 才 正 
开始 了 解 大 数据 分 析 所 蕴含 的 商机 ， 或 体会 到 不 懂 大 数据 分 析 将 付出 多 
高 的 代价 。 

今日 ,组 织 的 成 功 却 又 取决 于 ,能 否 从 各 种 各 样 数据 中 过 滤 出 有 
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价值 的 策略 来 辅助 业务 ， 而 这 些 数据 绝 不 是 只 局 限于 结构 化 数据 。 举 
例 来 说 ， 收 集 tweet 或 微 博 消息 时 ， 你 看 到 的 是 采用 ISON ( Javascript 
Object Notation ) 格式 的 结构 程序 ， 但 消息 本 身 的 文字 却 是 非 结构 化 
的 数据 ， 而 这 些 非 结构 化 数据 又 包含 了 各 种 形式 。 以 Facebook 来 说 ， 
“用户 平均 每 个 月 发 表 高 达 300 亿 则 的 内 容 ， 其 中 包含 了 文字 、 图 片 ， 
影音 各 种 不 同 的 数据 ;而 光 是 发 表 的 相片 二 关 就 超过 30 123K. 大 家 最 
SO SR RU ORR" MMA 27 亿 个 ;更 别提 难以 计数 的 小 通知 -生日 祝贺 ; 邀 
请 等 。 
“这 些 影 音 、 文 字 和 图 像 ， 以 程序 编码 来 说 很 难 被 传统 的 关系 数据 - 
库 所 储存 ， 或 者 是 雨量 、 温 度 、 车 流量 等 这 种 随时 动态 变化 的 数据 ， 也 
三 难以 套 入 数据 库 既 定 的 类 目 中 保存 和 管理 。.- 
以 载 货 火 车 这 种 看 来 再 寻常 不 过 的 东西 为 例 ， 为 了 应 对 安全 问 
题 , 每 二 辆 列车 或 每 二 条 铁轨 上 其实 也 都 装 上 了 数 百 个 传 感 吕 : 列 
= 车 上 的 传感器 会 记录 每 季 车 箱 和 车 内 每 个 零件 的 状态 ,工程 师 可 以 利 “一 一 o 
用 车 体 传感器 收集 较 易 耗 损 零件 ( 如 轴承 ) 的 数据 ， 在 零件 故障 之 前 
更 换 或 检修 ， 调度 人 员 则 利用 每 隔 几米 就 要 设置 的 铁轨 传感器 ， 追 中 
货运 和 物流 路 线 的 卫星 定位 数据 , 再 加 上 平 交道 传感器 . 可 能 造成 忽 
“多 移动 的 气候 等 各 种 来 源 的 数据 :控制 每 班 火车 所 承载 的 货运 量 、 发 -二 一 2 















ee a peter PEN LO care. 
REIN LAST ORME, 手机 上 的 _GPS 定位 系统 和 来 站 
"iter 的 数据 为 主要 来 源 , 重新 所 定 交通 管理 政策 。 例 如 安装 在 iPhone 上 
的 移动 应 用 分 析 软件 ， 就 像 是 移动 的 知 能 仪表 板 ,加 上 GPS 系统 可 以 实 T 
时 采集 的 交通 号 志 二 氢化 腾 传感器 站 至 车 加 的 数据 可 以 帮助 开车 民 - 
众 重新 调整 路 线 : 
除了 来 自 GPS 和 和 手机 传 来 的 数据 之 外 , 再 加 上 Twitter 帖子 了 解 民众 
的 意见 和 需求 ， 这 些 不 同 来 源 、 形 式 各 异 ,每 秒 钟 数 以 百 万 计 的 大 量 数 
据 ， 经 过 分 析 处 理 后 ， 波 十 顿 政府 已 着 手 制订 更 好 的 自行 车 、 治 车 和 交 
- 通 管理 政策 ， 希 望 大 由 降低 城市 的 碳 排 放量 和 塞车 情况 。 。 
以 往 ; “数据库 管理 人 员 常 花 上 大 笔 时 间 处 理 世 界 仅 -15% 的 数据 也 一 
就 是 那些 格式 整齐 、 符 合 既 有 格式 的 结构 化 数据 = 但 事实 上 ， 全 世界 有 
85% 以 上 的 数据 都 是 存在 于 社交 网 络 媒体 、 电 子 商务 等 之 中 的 非 结构 化 数 
据 ,或 项 多 是 半 结构 化 的 数据 。 面 对 包罗 万 象 的 天 数据 ， 旧 有 的 数据 库 
已 不 足以 应 对 如 此 庞杂 的 数据 格式 ， 极 需 找 寻 新 的 解决 方案 ， 因 为 这 类 
数据 昌 是 不 断 拉 高 数据 量 和 数据 变化 速度 的 “元 I"， 却 也 可 能 是 从 中 分 = 
析出 高 价值 信息 的 “宝藏 "。 
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大 数据 的 4V: 快 (Velocity) 


数据 量 和 种 类 改变 了 ， 制 造 数 据 的 速度 也 和 以 往 大 不 相同 ， 更 具 
体 一 点 来 说 ， 实 时 变动 的 流动 性 数据 (Data In-Motion ) 已 成 为 大 数据 
分 析 时 代 的 另 一 个 挑战 。 以 爱尔兰 的 戈 尔 韦 湾 (Galway Bay) 为 例 ， 
这 里 和 世界 上 许多 水 域 都 一 样 ， 正 面临 着 水 质 污染 、 鱼 群 数量 减少 和 
气候 变化 的 威胁 。 因 为 地 理 环境 的 缘故 ， 每 当 漏 油 或 其 他 污染 事件 发 
生 ， 戈 尔 韦 湾 中 污染 扩散 的 速度 远 比 公海 快 ， 因 此 爱尔兰 海洋 学 会 
(Marine Institute Ireland ) 与 IBM 合作 ,在 海湾 中 装 设 数 百 个 浮标 ， 浮 
标 上 带 有 传感器 ， 通 过 无 线 电 与 网 络 链接 ， 实 时 测量 海洋 与 气候 环境 
的 变化 。 

通过 频繁 的 采样 和 追踪 ， 任 何 细微 的 水 温 、 浪 高 、 洋 流 状态 、 盐 度 
和 含 氧 量 变动 ， 都 会 被 实时 记录 下 来 ， 科 学 家 从 不 断 更 新 的 流动 性 数据 
中 掌握 海洋 生态 的 变化 ， 除 了 以 此 及 早 采取 应 对 措施 〈 例如 因 污 染 值 加 
剧 而 关闭 海滩 ) 之 外 ， 也 希望 利用 传感器 测量 浪 高 ， 找 到 不 同时 段 里 波 
浪 发 电 的 最 佳 地 点 。 

另 一 个 不 断 产 生 流动 性 数据 的 应 用 实例 是 一 秒 也 无 法 耽搁 的 医疗 
业 。 以 早产 儿 护理 为 例 ， 由 于 早产 儿 出 生 时 免疫 系统 尚未 发 育 完全 , -加 
上 经 常 需要 播 管 、 注 射 或 做 各 种 检查 ， 万 一 生病 或 感染 ,病情 变化 可 能 


。 会 来 得 又 快 又 急 ; 特别 危险 。 所以， 加 拿 大 安大略 理工 大 学 建立 了 早产 - 


儿 健康 监护 系统 ， 在 早产 儿 的 身上 和 周围 装 设 传感器 ;收集 传感器 和 其 
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他 监测 设备 生成 的 心跳 、 呼 吸 等 数据 资料 ， 每 秒 最 多 可 产生 高 达 512 个 
的 监测 值 ， 通 过 不 断 更 新 的 流动 性 数据 ， 协 助 医护 人 员 提 前 24 小 时 预防 
早产 儿 因 败血症 引发 的 感染 。 

但 是 ， 对 于 旧 有 的 IT 系统 来 说 ， 这 些 不 断 更 新 的 流动 性 数据 ， 就 好 
像 是 下 了 一 场 永 不 停 软 的 倾 盘 大 雨 一 样 。 在 正常 气候 型 态 下 ， 每 年 降雨 
量 多 半 落 在 一 定 的 范围 内 ,就算 偶 有 强 台 风 挟 带 暴 雨 ， 雨 量 也 不 易 超出 
排水 系统 的 设计 标准 ， 这 就 像 是 以 往 传统 企业 IT 系统 设 定 的 吞吐 量 和 数 
据 库 容量 一 样 ， 只 要 流 进来 的 数据 量 ( 降雨 ) 不 超过 数据 传输 的 最 高 限 
制 ， 就 可 以 被 IT 系统 ( 排水 沟 ) 收集 起 来 ， 再 输送 到 负责 存放 的 数据 库 
( 集 水 池 ) 内 。 

而 现在 的 状况 就 好 比 极端 气候 ， 在 各 种 流 信息 的 交融 积累 下 ， 旧 有 
的 IT 系统 就 像 是 正在 经 历 有 史 以 来 最 大 规模 的 暴雨 ， 这 场 雨 下 得 又 猛 又 
急 ， 让 排水 系统 完全 招架 不 住 。 然 而 ， 在 分 秒 必 争 的 商业 环境 里 ， 对 企 
业 来 说 ， 已 经 没有 时 间 容 许 IT 系统 好 整 以 暇 地 等 候 数据 搜集 完成 ， 再 细 
火 慢 炖 进行 分 析 ， 尤 其 是 在 涉及 医疗 护理 、 电 子 制造 业 制程 改良 的 数据 
分 析 ， 甚 至 得 在 微 秒 间 获 得 结果 ， 并 在 事件 发 生 的 当下 立即 做 出 决断 ， 
才能 产生 价值 。 

过 去 习惯 处 理 静态 数据 的 数据 库 管理 模式 ， 已 显 捉襟见肘 ，IBM 所 
提出 的 “ 流 计 算 ”( Streams Computing ) 成 为 解决 流动 性 数据 问题 的 新 出 
路 。 以 往 ， 企 业 数 据 库 都 是 以 每 周 或 每 月 为 周期 ， 进 行 批 次 性 的 数据 统 
整 ， 再 运用 这 些 已 经 整理 好 的 结构 化 静态 数据 进行 分 析 ; 数据 库 完全 无 
法 处 理 异 动 频繁 、 流 入 量 庞大 、 用 户 需 要 实时 响应 的 动态 流 数据 
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( Streaming Data )。 

流 计 算 系统 则 是 利用 多 节点 PC 服务 器 的 内 存 大 批 处 理 ， 无 须 等 待 数 
据 储 存 ， 不 用 从 企业 数据 库 提取 数据 ， 就 可 自动 汇集 动态 数据 ， 直 接 处 
理 流动 的 多 元 结构 数据 , 其 分 析 反 应 速度 更 可 控制 在 微 秒 ( micro-second ) 
之 间 。 也 就 是 说 ， 在 流动 性 数据 被 储存 之 前 ， 流 计算 系统 先 就 其 进行 分 
析 ， 比 如 银行 想 要 导入 防 欺诈 的 风险 控制 机 制 时 ， 只 要 设计 好 一 定 的 逻 
辑 后 ， 系 统 会 根据 此 逻辑 先 判 定 是 否 为 欺诈 行为 ， 经 比 对 后 ， 确 定 交易 
行为 ， 此 笔 事 务 数据 才 会 写 入 数据 库 。 

这 样 一 来 , 像 是 智慧 电表 等 传感器 ( sensor ) 产生 的 数据 、 网 络 /系统 
[Web 服务 器 /应 用 服务 器 的 数据 日 志 ( Data Log )、 需 要 高 速 交易 的 金融 数 
据 等 ， 全 部 可 以 先 分 析 比 对 ， 再 存放 到 数据 库 中 ， 对 企业 来 说 ， 可 以 早 
1 微 秒 比 对 手 发 现 新 趋势 、 新 问题 或 新 机 会 , 在 混沌 多 变 的 商业 环境 里 抢 
下 先 机 。 


大 数据 的 4V: 疑 (Veracity) 


不 过 ， 在 数据 被 处 理 、 分 析 和 应 用 前 ， 我 们 应 该 先 问 一 个 非常 关键 
的 问题 :你 得 到 的 数据 可 靠 吗 ? 

过 去 ， 很 多 数据 取得 后 ， 包 括 企业 在 内 的 各 种 组 织 ， 通 常会 仔细 
查核 内 部 数据 的 来 源 ， 所 以 数据 的 可 靠 度 较 高 ， 但 在 网 络 语音 通信 
(VOIP), 社交 网 站 和 传感器 技术 的 蓬勃 发 展 下 ， 破 碎 的 、 不 完整 的 、 不 
可 靠 和 真 伪 难 辩 的 数据 越 来 越 多 ， 甚 至 有 研究 单位 预 估 ， 到 了 2015 年 
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就 是 数据 的 不 确定 性 ( Veracity ) 也 开始 受到 重视 。 

很 多 因素 会 造成 大 数据 的 不 确定 性 包括 “制造 过 程 的 不 可 靠 "; 很 
“多 事物 的 处 理 过 程 就 算 设计 得 再 精密 ， 产 生 的 结果 也 总 会 有 些 难以 预测 
或 掌握 之 处 。 譬如 ， 先 进 的 半导体 晶 圆 制程 也 无 法 确保 产品 100% 的 合格 
率 ;- 送 货 路 线 规划 得 再 好 ， 也 无 法 精准 预 估 尖 峰 时 间 从 甲 地 送 货 到 乙 地 
的 车 程 ; 传 感 器 所 感 测 的 数据 也 可 能 因为 环境 变化 或 使 用 年 限 而 发 生 错 
误 、 甚 至 数据 传输 的 过 程 也 可 能 被 恶意 破坏 ， 这 些 都 可 以 让 数据 制造 的 
过 程 电 产 生 不 准确 的 数值 。 

例如 ， 曾 有 医疗 研究 单位 为 老年 人 的 家 中 装 了 无 数 的 感应 监控 装 
置 , 有 的 甚至 装 在 地 板 下 面 ， 就 此 测 知 老年 人 的 生理 状况 和 疾病 发 生 
之 间 的 关系 。 某 目 研究 人 员 非 常 震 惊 地 发 现 ， 一 位 老年 妇女 在 就 寝 和 
早餐 之 间 的 这 段 时 间 里 ， 体 重 居然 增加 了 八 磅 ， 这 是 否 代表 她 水 肿 的 
程度 已 达到 危险 等 级 ?结果 研究 人 员 实 际 到 老年 妇女 的 家 走 一 趟 ， 才 
搞 清楚 ， 她 在 固定 的 时 段 体重 增加 ， 只 不 壕 是 因为 小 狗 习惯 跳 kE 床 和 
她 一 起 睡 罢了 。 

再 者 是 “数据 内 容 的 不 可 靠 "尤其 是 由 “人 ”所 产生 的 数据 , 不 可 
靠 的 程度 特别 高 ， 这 主要 是 因为 : 


1， 蕾 意 欺 骗 : 网 络 上 的 信息 有 多 少 是 真 的 ? 有 些 人 在 Facebook 上 发 
布 假 消息 , 有 些 人 在 微 博 上 有 好 几 个 假 ID, 有 些 博客 拿 钱 帮 美 容 
企业 写 护肤 产品 的 推荐 文 ， 有 些 厂商 在 网 络 论坛 上 发 动 “ 刷 屏 ” 
以 压 过 消费 者 对 产品 的 差 评 …… 这 类 的 例子 屡见不鲜 ， 只 要 荷包 
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够 深 、 时 间 够 多 ， 任 何 一 个 人 或 组 织 都 可 能 在 网 络 上 制造 出 假 民 
意 和 假 趋势 。 

2, 无 心 欺 瞒 ， 无 心 之 过 也 可 能 在 产生 数据 的 源头 造成 不 可 靠 的 情 
D, 辟 如 ， 现 场 证 人 看 错 了 ， 而 无 法 在 警 局 指认 出 真正 的 杀人 邮 
手 ; 有 时 候 ， 无心 之 过 则 发 生 在 数据 产生 之 后 的 传送 阶段 ， 例 如 
谣言 的 散布 。 网 络 就 曾 流传 着 一 份 含有 硅 灵 的 洗 发 精品 牌 名 单 ， 
这 是 某 家 厂商 蓄意 攻击 对 手 而 假 造 出 来 的 ; 但 当 消费 者 接收 了 错 
- 误 的 数据 后 ， 由 A 好 心 传 给 B 参考 ，B 又 传 给 C，C 再 传 给 D…… 
就 像 曾 参 杀 人 的 故事 一 样 ， 到 最 后 已 经 真 假 难 分 ， 连 曾 参 的 母亲 
都 不 再 相信 儿子 的 清白 。 

3， 时 序 错乱 : 相信 很 多 人 都 收 过 类 似 的 转 寄 邮 件 ， 一 个 父亲 焦急 
地 请 大 家 发 挥 爱 心 ， 协 助 寻找 走失 的 8 岁 女儿 ， 最 后 还 留 下 联 
系 电话 ， 网 友 收 到 信件 好 心 转发 ,但 其 实 小 妹妹 早 在 走失 两 个 
小 时 内 就 自己 回 家 ， 但 这 封 在 .2005 年 发 出 去 的 寻 人 信件 ， 却 
在 网 络 流传 长 达 6 年 ， 已 经 14 岁 的 女孩 通过 电视 新 闻 的 镜头 
感谢 网 友 ， 也 请 大 家 不 要 再 找 她 了 。 当 初 发 信 的 女孩 父亲 说 ， 
6 年 来 ， 家 人 每 天 平均 接 到 20 多 个 电话 ， 最 远 还 曾 接 到 从 中 国 
香港 地 区 、 越 南 和 乌克兰 打 来 的 ， 虽 然 网 络 协 寻 力量 大 ， 但 也 
希望 网 友 们 不 要 再 转 宕 了 。 这 就 是 因为 时 序 错乱 而 导致 不 准确 
的 数据 。 


还 有 “分 析 结 果 的 不 可 靠 "， 即使 是 由 全 世界 最 聪明 的 数学 家 设计 出 
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最 项 尖 的 演算 系统 、 尽 可 能 收集 到 最 完整 的 数据 ， 想 要 在 大 、 杂 、 快 的 
大 数据 中 ， 整 理 出 一 些 可 理解 的 头绪 ， 都 必须 归结 出 众多 现象 的 “最 大 
公约 数 "。 换 言 之 ， 所 有 的 演算 模型 都 只 能 估算 出 “近似 值 "， 而 不 是 绝 
对 的 真实 ， 这 也 是 为 什么 气象 预报 系统 虽然 越 来 越 精密 ， 预 报 结果 仍 难 
免 不 准 。 

因此 ， 当 我 们 试图 收集 大 量 的 数据 ， 和 希望 从 中 找 出 某 种 规律 和 趋势 
时 ， 也 必须 思考 这 些 庞杂 的 数据 量 中 有 哪些 不 确定 因素 存在 ， 否 则 不 可 
靠 的 数据 会 形成 不 确定 的 分 析 结果 ， 进 而 影响 后 续 决 策 的 价值 。 


数据 里 的 含金量 


综 上 所 述 ， 我 们 可 以 知道 在 现在 这 个 信息 泛滥 的 世界 中 ， 排 山 倒 海 
而 来 的 数据 ， 大 多 是 以 最 原始 的 、 非 结构 化 或 半 结 构 化 的 形式 存放 ， 导 
致 很 多 组 织 根本 不 知 该 如 何 从 中 提取 有 价值 的 信息 ， 甚 至 也 无 从 判断 有 
哪些 信息 值得 保存 。 

如 “大 数据 分 析 ” 一 词 所 隐 含 的 意思 ， 当 今 组 织 面 对 的 是 极 大 量 、 
极 庞杂 ， 且 不 断 变动 又 难 辨 真 伪 的 数据 。 不 懂得 管理 这 些 数据 的 组 织 ， 
一 不 小 心 就 会 被 数据 汪洋 所 淹没 。 然 而 ， 与 此 同时 ， 各 产业 的 企业 也 陷 
入 两 难 。 随 着 数据 量 持续 增加 ， 企 业 所 能 处 理 、 理 解 和 分 析 的 比例 却 迅 
速 下 滑 ， 因 而 形成 了 莫名 的 “ 浑 沌 区 ”( 见 图 2-5 )。 浑 沌 区 里 藏 有 什么 ? 
无 从 知晓 。 或 许 是 货真价实 的 稀世 珍宝 、 也 可 能 是 毫 无 价值 的 弃 土 废 矿 ， 
但 是 ， 最 痛苦 的 就 是 “不 知道 ”。 
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图 2-5 ”数据 量 持续 攀升 ， 但 企业 /组 织 可 分 析 的 比例 却 迅速 下 降 





企业 / 组 织 
可 获取 的 数据 


=, ea rem 
可 处 理 的 数据 百分比 


最 近 IBM 有 一 份 研究 指出 ,虽然 现在 的 企业 已 经 有 办 法 储存 所 有 想 
要 保存 的 数据 ， 但 因为 产生 数据 的 方式 与 速度 前 所 未 见 ， 有 半数 以 上 的 
企业 领袖 发 现 自己 无 法 借 此 取得 经 营 事业 所 需 的 商业 洞 见 。 在 这 样 的 环 
境 下 , 一 场 庞 杂 的 信息 混战 正 让 企业 陷入 进退 维 谷 的 困境 : 取得 业务 洞 
察 力 的 渠道 与 平台 变 多 了 ， 但 是 ， 随 着 数据 的 矿藏 量 越 堆 越 高 ， 企 业 却 
有 如 在 滚滚 河流 中 第 取 砂 金 ， 要 在 最 短 时 间 内 分 辨 第 网 中 的 是 泥 沙 还 是 
金沙 ， 其 实 非 常 困难 ， 因 此 从 信息 洪流 中 所 能 炼 出 的 真 金 比 例 也 越 来 越 
低 ， 而 且 下 降 的 速度 越 来 越 快 。 

但 是 ， 只 要 有 正确 的 科技 平台 、 使 用 正确 的 方法 来 分 析 各 项 数据 
( 至少 是 有 用 的 数据 )， 浩 瀚 的 数据 原矿 也 可 能 化 成 开启 商机 、 了 解 客户 
和 纵横 市 场 的 密 钥 。 
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我 们 借用 采矿 的 比喻 为 本 章 作 总 结 。 很 久 很 久 以 前 ， 矿 工 是 先 “ 看 
到 ” 埋 在 土石 中 闪 着 金 澄 色 泽 的 矿 块 后 才 开始 挖掘 ， 然 后 再 设法 在 发 现 
第 一 块 金 的 地 点 附近 找寻 更 多 可 开采 的 金 矿 。 随 着 气 金 的 矿工 越 来 越 多 ， 
这 个 区 域 的 矿藏 越 来 越 少 ， 虽 然 外 围 还 有 更 大 的 矿脉 ， 或 许 就 在 旁边 的 
山上 、 又 或 许 在 好 几 公 里 以 外 ,但 是 ， 人 们 光 用 肉眼 是 无 法 找到 新 矿藏 
的 ， 自 此 ， 采 人 金 就 变 成 了 一 场 赌博 ， 梦 想 着 一 夕 致富 的 工人 ， 只 能 在 上 
次 采 出 金 矿 的 地 方 执着 地 挖 据 ， 却 没 人 知道 找 不 找 得 到 金子 。 

一 般 而 言 ， 矿 体 的 金 矿 品位 (ore grades) 每 千克 至 少 要 有 30 毫克 
( mg ) 的 黄金 含量 ， 肉 眼 才能 看 得 到 , 但 目前 全 世界 绝 大 多 数 的 金 矿 都 已 
是 肉眼 看 不 到 的 ， 导 致 大 多 数 的 真 金 ( 高 价值 数据 ) 还 深 埋 在 废 土 砂 
( 低 价值 数据 ) 里 。 但 是 ， 今 天 的 采 人 金 术 不 一 样 了 ， 矿 业 公司 豪 掷 资本 、 
买 下 昂贵 的 探勘 器 具 ， 这 些 机 械 一 次 可 探勘 几 百 万 吨 的 土石 。 

这 说 明了 只 要 用 对 工具 ， 就 能 用 符合 经 济 效益 的 方式 第 掉 砂 石 、 找 
出 闪 之 的 金 悄 。 把 这 些 金 悄 收 集 起 来 ， 詹 铸 之 后 便 能 变 成 价格 高 昂 的 金 
条 。 挖掘 大 数据 也 是 一 样 。 过 去 ,数据 量 太 大 、 毫 无 价值 的 数据 太 多 、“ 赌 
博 ”的 代价 太 高 ， 没 有 一 家 企业 有 本 钱 再 用 过 去 既 有 的 流程 一 一 过 滤 所 
有 的 数据 ， 只 有 利用 新 的 方法 和 工具 ， 才 能 以 最 经 济 的 方式 储存 和 处 理 
数据 ， 并 从 中 挖 出 值得 锻 铸 与 收藏 的 珍宝 。 


ARATE, 


大 数据 大 商机 











象 你 正在 参加 一 个 益 智 节目 ， 电 视 墙 上 浮现 的 题目 是 : 在 大 数 
CSS 据 分 析 中 下 列 哪 一 部 分 是 最 重要 的 ? 


1, “大 ”的 部 分 ( the“big”part ) 

2，“ 数 据 ” 的 部 分 (thedata”part ) 
3. 两 者 都 是 (both ) 

4. 两 者 皆 非 (neither ) 


请 你 花 30 秒 来 思考 这 个 问题 ， 然 后 锁定 答案 。 

正确 答案 揭晓 上 答案 是 4。 

为 什么 ?这 是 脑筋 急 转 弯 吗 ?或 许 有 人 会 这 么 抗议 。 其 实 ， 这 个 小 
玩笑 要 强调 的 是 ， 大 数据 分 析 最 重要 的 ， 不 在 于 它 的 数据 量 ， 而 是 你 可 
以 用 它 来 做 什么 ! 

前 两 章 我 们 提 到 ， 在 现今 的 世界 中 ，Facebook 是 数据 、 微 博 是 数据 、 
对 话 也 是 数据 ; 这些 数据 不 一 定 是 有 意 创 造 的 ， 甚 至 不 一 定 是 人 为 创造 
的 : 几 十 亿 人 和 数 万 亿 台 智慧 设备 、 传 感 器 和 形形色色 的 仪器 仪表 ， 一 
天 24 小 时 不 断 创造 数据 ， 而 且 80% 的 新 数据 完全 是 没有 经 过 组 织 的 内 容 。 

当 我 们 感知 化 的 程度 越 高 ， 使 用 的 传感器 也 越 多 ， 这 些 从 不 同 渠 
道 所 获得 的 大 量 数据 ， 如 果真 要 进行 实时 处 理 和 分 析 ， 估 计 必 须 以 每 秒 
6 万 多 次 的 操作 速度 采取 行动 ， 而 这 个 速度 比 蜂鸟 的 翅膀 扇 动 速度 还 快 
上 300 倍 。 

对 于 企业 或 组 织 来 说 ， 大 数据 分 析 的 意义 并 不 是 强调 我 们 有 多 容易 
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在 庞杂 的 数据 堆栈 中 迷失 ， 或 是 要 实时 分 析 这 些 数据 有 多 困难 ， 而 是 要 
让 企业 或 组 织 知道 ， 当 大 数据 大 潮 来 袭 ， 如 果 只 是 消极 地 扩充 储存 空间 ， 
却 无 法 分 析 大 数据 的 使 用 意义 ， 这 些 数据 就 相当 于 堆放 在 仓库 里 的 大 型 
垃圾 。 

反之 ， 如果 这 些 在 传统 的 商业 智能 (BI, Business Intelligence ) 解决 
方案 中 可 能 尚未 被 开发 ， 也 可 能 因为 太 过 杂乱 而 被 弃置 的 大 量 数据 ， 经 
过 交织 、 整 合 在 一 起 后 ， 它 的 内 在 价值 可 以 让 公司 增加 50% 的 新 客户 ， 
让 政府 减少 30% 的 成 本 ， 它 就 不 只 是 一 份 大 而 无 用 的 数据 ， 而 是 一 项 宝 
贵 的 竞争 优势 。 

把 从 不 同 渠道 获得 的 大 量 数据 ,转变 为 经 过 组 织 的 信息 、 其 至 知识 ， 
这 就 像 是 一 个 人 同时 拥有 听觉 、 视 觉 、 味 觉 和 触觉 一 样 ， 将 这 些 “ 感 觉 ” 
综合 起 来 ， 才 能 感知 到 我 们 身 处 的 每 一 个 瞬间 ， 然 后 应 对 各 种 状况 ， 做 
出 适当 的 反应 。 而 且 ， 通 常 你 所 能 接收 到 感觉 越 多 ， 对 于 事物 的 感知 能 
力也 越 强 ， 所 以 可 以 连接 的 不 同 种 类 数据 越 多 ， 你 获悉 的 洞察 力 
( Uncovering Insights ) 也 就 越 细致 、 准 确 ， 进 而 更 容易 做 出 实时 的 决策 。 

例如 欧洲 一 家 连锁 烘焙 坊 与 IBM 合作 ， 就 从 人 潮流 量 、 客 户 信息 、 
气象 信息 中 洞悉 一 个 现象 一 一 每 当下 雨天 ， 女 性 消费 者 喜欢 吃 蛋 糕 ; 晴 
天 则 是 潜艇 堡 、 三 明治 销量 较 佳 。 以 往 企业 只 能 赁 经 验 发 气 这 种 现象 ， 
但 现在 有 了 数据 资料 左 证 ， 便 可 以 利用 整合 每 日 气象 、 原 物料 E, 
销售 等 大 量 数据 后 进行 预测 ， 促 使 中 央 厨 房 调整 出 最 佳 产品 组 合 ， 这 家 
连锁 烘 培 坊 因此 提升 了 20% 的 获 利 。 

因此 ， 我 们 在 讨论 大 数据 分 析 时 ， 它 真正 的 价值 是 在 于 此 趋势 背后 


所 包含 的 “分 析 学 ”( Analytics ), 也 就 是 以 系统 化 的 方式 , 把 观察 和 经 验 
转化 成 知识 。 让 企业 和 组 织 在 应 对 各 领域 数据 的 快速 增长 时 ， 除 了 储存 
之 外 ， 能 够 更 进一步 地 分 析 数 据 、 提 取信 息 、 萃 取 知识 ， 并 且 应 用 在 决 
策 辅助 上 。 

从 先前 的 内 容 中 ， 我 们 可 以 子 解 到 “大 数据 = 大 量 + 复杂 + 快速 变动 
的 数据 "， 而 大 数据 分 析 《Big Analytics) 正 是 将 这 些 来 自 历 史 的 、 模 拟 
的 、 多 元 的 、 正 在 产生 的 庞杂 数据 ， 转 化 成 有 价值 的 洞 见 ， 进 而 成 为 企 
业 或 组 织 决策 辅助 的 选项 ， 如 图 3-E 所 示 。 


图 3-1 大 数据 分 析 的 转化 过 程 


数据 类 型 转化 过 程 的 决策 点 可 能 产生 的 结果 
> | 数据 属性 
数据 聚集 的 报告 和 疑问 
> | Prine 
预测 模型 - 选项 2 








| 答案 和 信任 ems 
> | sad 
自 文字 、 影 像 、 图 片 、 ` 
来 | rae 音频 | 反馈 与 学 习 N 


简 而 言 之 ， 大 数据 分 析 就 是 化 繁 为 简 、 化 数 为 宝 ， 让 企业 和 组 织 可 
以 结合 分 析 结 果 和 采取 行动 ， 做 出 更 好 的 业务 决策 。 以 零售 业 为 例 ， 企 
业 可 以 借 由 收集 消费 者 在 店内 的 走动 实况 ,以 及 与 商品 的 互动 影像 ， 配 、。 . 
O 合 大 量 的 事务 历史 记录 数据 ， 重 组 商品 销售 的 类 型 -位 置 和 调整 售 价 的 -一 


时间; -目前 已 有 卖场 因此 减少 了 17% 的 存货 ， 并 增加 了 了 高 利润 率 的 自 有 二 o 
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品牌 商品 销售 比例 。 

我 们 也 可 以 利用 大 数据 分 析 打造 实时 、 个 性 化 的 服务 ， 尤 其 是 可 以 
将 消费 者 细 分 成 更 微小 群体 的 网 络 购物 。 现 在 已 有 网 购 企业 通过 网 络 点 
击 流 ， 追 踪 个 体 消费 者 的 行为 、 更 新 其 偏好 、 并 实时 模拟 后 续 的 购买 倾 
向 。 这 种 实时 性 的 精准 营销 ， 不 仅 可 预测 客户 再 次 光顾 的 时 间 ， 同 时 也 
可 以 针对 个 人 需求 ， 促 使 最 有 价值 的 客户 购买 高 利润 率 的 商品 。 

除了 零售 业 之 外 ， 这 种 量 身 订 做 的 数据 应 用 服务 ， 其 他 行业 也 能 从 
中 受益 。 例 如 ， 一 家 寿险 公司 依照 客户 风险 、 财 富 变化 、 家 庭 资 产 价值 
和 其 他 输入 数据 ， 对 每 一 名 客户 提供 量 身 订 制 的 保单 。 

至 于 制造 商 ， 他 们 已 经 利用 大 数据 分 析 系 统 ， 以 来 自生 产 线 的 传 感 
器 数据 ， 建 构 自动 调节 的 流程 以 减少 制造 过 程 中 的 损失 ， 同 时 避免 成 本 
高 晶 ( 有 时 十 分 具有 危险 性 ) 的 人工 干预 以 增加 产 出 。 在 目前 最 先进 的 
数字 化 油田 中 ， 仪 表 不 时 读 取 有 关 井 口 状况 、 信 道 和 机 械 系统 等 各 类 流 
动 数据 ， 并 自动 将 结果 输入 实时 分 析 中 心 ， 以 调整 油 量 生产 速度 和 停机 
时 间 ， 一 家 大 型 石油 公司 因此 减少 了 10% 一 25% 的 运营 成 本 和 员工 成 本 ， 
产量 提高 了 5%。 

汽车 制造 业 则 是 试图 打破 藩篱 ， 寻 求 上 游 供 货 商 和 下 游 销售 点 的 外 
部 信息 ， 以 大 数据 分 析 整 合 来 自 不 同系 统 的 数据 ， 以 便 在 新 车 款 的 设计 
时 间 三 方 合作 共同 开发 ， 此 举 不 仅 控制 了 决定 最 终 制造 成 本 的 关键 因素 ， 
同时 也 更 符合 市 场 需 要 。 

对 于 内 部 管理 来 说 ， 大 数据 分 析 可 以 利用 对 照 实 验 ， 测 试 各 种 假设 
和 分 析 结果 ， 从 而 做 为 投资 决策 的 指标 ， 以 及 改善 财务 表现 和 产品 性 能 ， 


#3 & 


就 像 是 许多 金融 机 构 用 来 做 投资 仿真 的 数学 模型 。 而 现在 ， 包 括 像 是 麦 
当 劳 等 大 型 零售 业 ， 也 开始 在 每 一 个 地 区 的 部 分 门市 ， 安 装 了 搜集 营运 
数据 的 传感器 或 监控 装置 ， 用 来 追踪 店员 与 客户 互动 的 流程 、 客 流量 的 
模式 ， 以 进行 菜单 变化 、 餐 厅 设 计 以 及 服务 流程 的 改善 。 


科技 和 商业 的 新 变革 


大 数据 分 析 可 以 协助 企业 和 组 织 有 效 提升 竞争 力 ， 但 是 对 很 多 人 来 
说 ， 目 前 这 个 概念 还 处 在 初期 的 萌芽 阶段 ， 因 此 业界 也 产生 了 大 数据 分 
析 到 底 是 变革 (revolution )， 还 是 进化 ( evolution ) 的 争论 。 

有 人 认为 数据 分 析 技 术 早 已 存在 多 年 ， 最 古老 的 名 称 叫做 “统计 学 ” 
(statistics )， 新 潮 一 点 的 说 法 可 能 叫做 “数据 挖掘 ”( data mining )、“ 数 据 
仓库 ”( data warehouse )， 不 管 名 词 如 何 转变 ， 基 本 上 都 是 收集 、 整 理 、 
分 析 与 诠释 数据 。 那 么 ， 大 数据 分 析 不 过 就 是 一 种 数据 可 处 理 量 更 大 、 
速度 更 快 的 高 级 技术 而 已 ， 它 和 以 往 的 数据 分 析 又 有 什么 不 同 呢 ? 

在 回答 这 个 问题 之 前 ， 让 我 们 先 回 到 以 往 的 数据 分 析 方式 上 。 一 直 
DOK, IT 人 员 在 处 理 数据 分 析 时 ， 都 是 在 寻求 所 谓 的 优化 (optimizing ) 
解决 方案 ， 也 就 是 在 一 个 有 许多 限制 和 条 件 相互 冲突 的 环境 下 ， 找 寻 一 
个 最 适合 方案 的 过 程 。 最 合适 的 答案 代表 最 好 的 妥协 ， 也 就 是 为 了 让 计 
算 机 计算 量 可 以 负担 得 起 ， 必 须 牺牲 掉 很 多 他 们 认为 不 需要 或 没有 意义 
的 数据 。 

换言之 , 优化 其 实 就 是 简化 (simplify)! 但 是 ， 这 种 传统 的 数据 分 析 
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方式 无 形 中 也 把 优化 的 目标 降低 了 ， 就 像 是 我 们 只 看 我 们 想 看 的 ， 只 知 
道 我 们 可 以 知道 的 ， 而 这 种 以 管 完 天 的 做 法 ， 不 仅 难以 知道 事情 的 全 貌 ， 
同时 也 限制 了 发 展 的 境界 。 大 数据 分 析 的 概念 则 颠覆 了 这 种 想法 ，IT 人 
员 第 一 次 考虑 的 是 如 何 收集 更 多 的 数据 来 分 析 ， 而 不 是 怎么 减少 数据 量 ， 
研究 人 员 不 是 要 舍弃 数据 、 简 化 模型 让 计算 机 可 以 计算 ， 而 是 要 想 办 法 
收集 以 前 因为 计算 机 无 法 计算 而 舍弃 的 数据 ， 让 计算 分 析出 来 的 结果 价 
值 更 高 。 

在 系统 设计 上 的 思维 也 不 一 样 。 在 网 络 、 智 能 手机 、 传 感 器 兴起 的 
这 10 年 内 , 因为 IT 设备 成 本 一 直下 降 , 面 对 大 数据 , 大 家 谈 的 都 是 如 何 
用 更 便宜 、 空 间 更 大 的 方式 储存 数据 ， 但 这 种 想法 还 是 只 能 先 把 数据 储 
存 起 来 。 尤 其 是 在 传统 的 数据 库 中 ， 数 据 的 关联 性 结构 必须 像 是 图 书馆 
的 索 书号 ， 依 照 固定 的 格式 编码 ， 如 果 数据 要 更 改 ， 或 者 要 将 A 渠道 传 
送 而 来 的 数据 和 B 渠道 及 C 数据 库 的 数据 结合 ，IT 人 员 就 得 大 幅 更 改 数 
据 库 的 整体 结构 ， 因 此 所 有 存放 的 数据 还 是 只 能 用 来 做 事后 的 分 析 。 

但 是 现在 ， 大 数据 分 析 的 架构 不 同 了 ! 以 前 进行 数据 分 析 时 ，IT 人 
员 是 以 程序 为 核心 ， 把 散落 在 外 面 的 数据 ， 放 到 储存 系统 的 结构 里 ， 然 
后 拿 进 内存 ， 交 由 计算 机 程序 计算 ， 所 以 数据 得 经 过 提取 、 处 理 、 分 析 ， 
最 后 等 上 数 天 、 数 周 的 时 间 才 能 得 到 结果 。 大 数据 分 析 的 概念 则 是 以 数 
据 当 作 核 心 ， 外 面 放 了 很 多 的 程序 和 硬件 ， 依 据 不 同 的 需要 对 应 不 同 的 
处 理 程序 ， 产 出 个 性 化 、 以 毫秒 为 单位 ， 并 可 随 着 时 间 推 移 的 实时 分 析 
结果 。 

毫 无 疑问 ， 这 些 想法 和 概念 和 以 往 IT 人 员 所 学 的 数据 库 概念 完全 不 
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阅 楼 或 仓库 里 ， 翻 阅 成 礁 的 信件 、 照 片 、 电 话 账 单 ， 同 时 采访 你 的 朋友 、 
AB SIRE, 才能 拼凑 出 一 个 人 大致 的 轮廓。 See Se a 
m 但 是 现在 ， 当 人 们 生活 的 历史 记录 马上 原本 大 多 储存 在 纸 本 与 模 相 
的 记 亿 中 二 改 变 成 这 数字 档案 传送 ， 不 论 是 文字 、 音 乐 和 影像 ， 基 至 人 “ 
们 的 行为 都 逐渐 转化 为 可 记录 的 -0 与 1 之 后 - 现在 从 你 的 电子 邮件 、 数 
“ 码 相片 ， 以 及 和 朋友 的 MSN 对话: Facebook 留言 、 就 可 以 得 知 你 的 讲话 = 7 
HR 行事 作风 。 se ee 
” 也 因此 ， 早 在 士 多 年 前 ， ere weer Ts ae 
被 位 化 的 个 人 数据 ， 并 期 望 能 以 此 更 准确 地 针对 不 同 目标 族群 营销 商品 ， 
或 者 是 利用 它 开发 新 的 消费 商机 ， 例 如 大 家 非常 的 CRM (Cusiomer 
Relationship Management, 客户 关系 管理 六 
ee ee 
和 的 欲望 和 需求 ， PRAIA, MEIER 1 EBRA 
women ge 
通常 ，CRM 是 先 将 顾客 的 基本 数据 及 互动 历史 储存 在 数据 库 中 ; 再 
根据 数据 库 的 内 容 ， 针 对 不 同 区 隔 市 场 发 展 营销 组 合 ， 提 供 为 顾客 量 身 
订 制 的 服务 ， 并 增加 顾客 满意 度 与 忠诚 度 。 例 如， 即使 你 不 是 名 大 > 只 
变 固 定 搭乘 某 一 家 航空 公司 的 飞机 ， 几 次 之 后 一 旦 上 机 ， 就 会 有 空 服 员 
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亲切 地 问候 你 :“ 某 先生 您 好 ， 有 什么 需要 帮忙 的 吗 ? ” 空 服 员 会 知道 常 
客 的 基本 数据 ， 就 是 拜 CRM 系统 之 赐 。 

虽然 以 前 企业 得 面临 收集 数 千 个 、 数 万 个 ， 甚 至 上 千 万 个 客户 数据 
的 挑战 ， 但 是 这 还 可 以 从 已 知客 户 的 消费 习惯 里 找 数据 分 析 。 时 至 今日 ， 
企业 要 面 对 的 情况 却 是 每 一 天 上 亿 、 上 万 亿 ， 而 且 不 确定 从 何 而 来 的 线 
索 。 以 网 络 广 告 为 例 ， 每 个 月 对 台湾 Yahoo! 奇 摩 的 不 重复 访问 的 网 友 超 
过 1300 万 人 ， 占 台湾 地 区 人 口 的 1/2 以 上 ， 而 且 任 何人 只 要 造访 过 雅虎 
广告 商 的 网 站 ， 平 均 会 留 下 2520 个 线索 ， 这 也 就 是 说 ， 你 得 分 析 不 知道 
来 自 何人 的 328 亿 笔 细节 数据 ， 才 能 得 知 一 则 网 络 广告 横幅 (banner ) 的 
效果 。 

而 且 ， 这 些 数据 绝 大 部 分 都 是 数字 垃圾 ， 如 果 无 法 下 达 精 确 的 计算 
机 指令 ， 大 量 的 垃圾 数据 很 容易 让 公司 服务 器 得 花 上 3 天 来 扫描 ， 甚 至 
是 直接 压 垮 公司 的 服务 器 的 计算 能 力 。 有 鉴于 此 ， 开 始 有 人 倡导 数据 控 
掘 的 重要 性 ， 让 企业 或 组 织 从 大 量 资料 中 ， 发 掘 出 潜藏 的 有 用 信息 ， 以 
提供 决策 人 员 人 参考 。 


以 前 ， 从 瞎子 摸 象 到 事后 诸葛 亮 


数据 挖掘 是 一 种 从 大 量 数 据 中 ， 由 计算 机 自动 选取 重要 的 、 潜 在 有 
用 的 数据 类 型 或 知识 的 过 程 ， 借 由 统计 、 机 器 学 习 ( Machine Learning )、 
模式 识别 ( Patten Recognition ) 等 技术 ， 辅 助人 们 进行 决策 判断 。 例 如 
从 大 量 的 网 络 事务 数据 中 ， 发 气 顾 客 的 消费 习性 和 产品 销售 的 关联 性 ; 
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从 以 往 的 消费 及 缴费 数据 中 ， 预 警 信 用 卡 呆账 的 可 能 等 。 

但 是 ， 这 一 切 都 得 基于 这 些 数据 必须 有 足够 的 “数据 质量 ”( Data 
Quality )， 否 则 数据 挖掘 根本 无 法 进行 ! 

通常 ， 数 据 挖掘 需要 4 个 步骤 ， 首 先是 定义 问题 ( define problem ), 
例如 某 银 行 要 推出 一 项 新 金融 商品 ， 你 必须 先 定义 需要 解决 的 问题 为 “ 借 
由 数据 控 据 找 出 可 能 购买 这 项 商品 的 潜在 客户 名 单 "。 其 次 是 数据 选择 
(data selection )， 也 就 是 从 数据 库 中 挑选 数 个 客户 基本 数据 的 字段 ( 假设 
为 性 别 、 年 龄 、 教 育 程度 、 职 业 、 月 收入 )， 作 为 数据 集 市 〈 data mart ), 
再 以 这 个 数据 集 市 为 基础 进行 处 理 。 

第 3 步 是 数据 准备 ( data preparation )， 也 就 是 将 数据 转 成 适当 格式 。 
转换 的 原因 主要 是 你 想 要 知道 的 答案 可 能 在 原始 数据 中 并 不 存在 ， 例 如 ， 
一 般 数据 中 会 存 有 客户 交易 的 日 期 ( Date )， 但 你 希望 得 知 的 是 这 3 年 期 
间 客 户 的 交易 情况 ， 此 时 就 需要 经 过 数据 转换 。 另 外 ， 原 始 数据 的 缺漏 、 
异常 也 都 在 此 阶段 删除 或 清洗 ， 以 消除 不 必要 的 偏差 (bias )。 

经 过 上 述 的 层 层 关卡 , 你 所 获得 的 数据 才 算 是 够 资格 进行 分 析 , 来 到 最 
后 一 个 步骤 一 一 知识 提取 ( knowledge extraction ), 将 处 理 过 的 数据 经 过 统计 、 
计算 后 ， 以 图 表 、 规 则 、 数 值 等 方式 来 呈现 ， 交 给 该 领域 的 专家 解读 。 

也 就 是 说 ， 以 往 我 们 在 谈论 到 商业 智能 (BI) 时 ， 都 是 通过 在 线 分 
析 处 理 ( OLAP )、 数 据 挖 气 或 数据 仓库 等 技术 , 针对 来 自 于 ERP、CRM 、 
SCM 等 应 用 系统 的 结构 化 数据 做 分 析 ( 见 图 3-2 )， 即 使 是 网 络 上 的 数据 
也 必须 先 整理 成 同样 的 格式 ， 才 有 办 法 进行 分 析 ， 更 违 论 现在 每 天 大 量 
生产 的 半 结 构 化 或 非 结 构 化 数据 了 。 


6 | 云端 时 代 条 手 级 应 用 : 











大 数据 = 交易 数据 + 互动 数据 + 观察 数据 






CRM 
(客户 关系 管理 ) 







ERP 
coum SO Ree ae 


资料 多 样 性 与 不 确定 性 增加 一 


数据 来 源 ， 与 Teradata Inc- 共同 整理 


除了 数据 库 系 统 的 限制 ， 只 能 分 析 已 经 在 数据 库 中 储存 好 、 整 理 好 
的 结构 化 数据 之 外 ， 对 企业 和 组 织 来 说 ， 它 们 希望 从 这 些 营 运 数据 中 抽 
丝 剥 蔓 ， 进 而 优化 企业 的 经 营 体质 ， 但 是 这 些 数据 资料 统统 都 是 森 已 成 
舟 的 事实 ， 即 使 经 过 整理 、 分 析 ， 最 后 还 是 得 凭借 着 个 人 经 验 判 断 来 拟 
订 未 来 的 发 展 策略 。 换 言 之 ， 企 业 习 惯 的 数据 处 理 方式 是 以 “事后 的 分 
析 来 做 事前 的 预测 ”! 

也 就 是 说 ， 以 往 不 管 是 在 线 分 析 处 理 、 数 据 挖掘 或 数据 仓库 等 技术 ， 
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可 以 为 像 是 “ 某 某 人 本 年 度 的 销售 业绩 是 多 少 、 何 时 是 销售 高 峰 期 ”这 
类 的 问题 ， 从 结构 化 数据 中 找到 很 精确 的 答案 ， 也 就 是 分 析 “ 已 知 中 的 
未 知 ”( Known unknowns )， 在 我 们 知道 的 问题 中 去 找 答 案 。 

虽然 说 “事后 诸葛 亮 ” 至 少 比 起 “了 瞎子 摸 象 ”要 好 得 多 ， 但 等 到 借 
由 ERP 或 CRM 等 实际 数据 出 炉 之 后 ， 再 来 做 事后 的 分 析 ， 不 仅 常常 为 
时 已 晚 ， 而 且 无 法 实时 洞察 最 重要 的 消费 者 使 用 反应 ， 以 至 于 无 法 跟 上 
市 场 的 脉动 。 而 大 数据 分 析 则 可 以 给 你 未 知 的 未 知 ( Unknown unknowns ), 
也 就 是 你 没有 想到 的 一 些 问题 的 结果 ， 或 许 下 面 的 例子 可 以 给 我 们 一 些 
省 思 。 

2011 年 10 月 ， 就 在 苹果 正式 发 布 Phone 4S 的 几 天 前 ， 微 软 非常 低 
调 地 发 布 了 一 项 消息 : 此 后 将 不 再 制造 Zune 播放 器 。 

这 款 已 被 不 少 人 遗忘 的 商品 在 2006 年 问世 ,当时 苹果 已 在 全 球 卖 出 
超过 1 亿 台 的 iPod， 而 微软 认为 便携 式 多 媒体 播放 器 市 场 处 于 婴儿 期 ， 
增长 空间 还 很 大 ， 因 而 投入 庞大 的 预算 开发 硬件 ， 并 与 世界 四 大 唱片 公 
司 达成 授权 协议 ， 预 备 和 苹果 计算 机 在 多 媒体 播放 器 和 移动 音乐 下 载 的 
市 场 中 一 较 长 短 。 

虽然 ， 当 时 Zune 在 美国 的 市 占 率 仅 9%， 却 还 是 仅 次 于 iPod 名 列 市 
场 第 二 ， 但 是 第 2 年 Zune 的 市 占 率 却 只 剩 下 不 到 1%， 连 市 场 前 五 强 都 
进 不 去 。 

身 为 一 个 失败 之 作 , Zune 自身 的 功能 并 非 不 优秀 , 它 不 仅 屏 幕 较 大 ， 
有 Wi-Fi 可 具备 通信 能 力 ， 微 软 甚至 还 为 了 它 花 大 钱 取 得 好 莱 坞 电影 公司 
的 授权 许可 ， 可 以 在 上 面 播放 好 莱 坞 的 电影 以 及 电视 节目 。 


云端 时 代 杀 手 级 应 用 : 
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破坏 式 的 侈 新 竞争 力 


一 开始 ， 基 于 详细 的 市 场 调查 和 数据 分 析 ， 微 软 对 功能 强大 的 Zune 信 
心 十 足 ， 当 年 比尔 盖 茨 讽刺 苹果 的 名 言 是 ,“Zune 的 用 户 会 喜欢 苹果 产品 ， 
因为 苹果 为 数字 音乐 开辟 了 一 个 广阔 的 市 场 ， 而 苹果 使 用 者 会 喜欢 Zune, 
则 是 因为 他 们 人 人 都 有 个 iPod!” 

然而 ， 微 软 没 想到 的 是 ， 对 消费 者 来 说 ， 购 买 iPod 的 理由 大 多 只 是 
因为 一 种 前 卫 时 尚 的 品味 ， 而 不 是 功能 。 例 如 ， 微 软 从 上 到 下 都 难以 理 
解 ，iPod 为 什么 需要 搞 得 五 颜 六 色 、 像 果冻 一 样 ， 结 论 是 因为 iPod 功能 
性 不 足 ， 只 好 哗众取宠 。 所 以 ， 微 软 决定 功能 强大 的 Zune 不 需 颜色 来 衬 
托 ， 只 需要 基本 的 黑 、 白 、 棕 3 色 即 可 ,结果 事实 证 明 ， 在 消费 者 的 心 
目 中 ,颜色 就 是 比 功能 “ 受 宠 ”。 

Zune 失败 的 另 一 个 重要 原因 ， 是 在 智能 手机 兴起 ， 手 机 就 能 充当 多 
媒体 播放 器 之 后 ， 消 费 者 更 无 法 为 只 有 黑 、 白 、 棕 3 种 颜色 的 Zune， 找 
到 一 个 值得 购买 的 理由 。 

这 个 被 视 为 微软 有 史 以 来 最 失败 的 产品 ， 其 实 代 表 的 就 是 企业 当前 
所 面临 的 挑战 ， 消 费 者 在 意 的 颜色 、 品 味 、 感 觉 ， 企 业 都 无 法 在 既 有 的 
结构 化 数据 中 找到 答案 。 唯 一 的 方式 是 从 全 球 各 个 网 站 上 的 讨论 区 内 容 、 
Twitter 或 Facebook 上 的 帖子 ， 也 就 是 量 更 大 、 更 新 速度 更 快 的 非 结构 化 
数据 中 ， 得 知 消费 者 的 反应 和 喜好 的 转变 。 

尤其 是 随 着 移动 设备 、 社 交 媒 体 等 新 兴 应 用 的 窜 红 ， 人 们 “ 黏 ”在 
这 些 应 用 上 的 时 间 ， 比 起 从 前 单纯 利用 计算 机 进行 文字 处 理 大 幅 延 长 。 
更 值得 注意 的 是 ， 人 们 不 再 隐藏 内 心 的 独白 ， 转 而 愿意 对 社交 好 友 吐露 
真 话 、 分 享 消息 。 这 些 隐藏 在 非 结 构 化 数据 里 的 真实 意向 ， 可 能 从 少数 
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几 个 人 的 想法 ， 迅 速 蔓延 成 为 众多 乡 民 的 集体 共识 ， 进 而 对 商品 采购 、 
品牌 好 恶 ， 造 成 深远 而 巨大 的 影响 。 


现在 ， 从 测 知情 绪 到 开发 新 市 场 


在 社交 媒体 成 为 人 们 情绪 偏好 的 反射 镜 之 际 ， 企 业 或 组 织 开 始 试图 
拆 解 这 些 每 天 大 量 生成 的 非 结 构 化 数据 ， 期 望 从 中 挖 据 更 多 的 蛛丝马迹 ， 
更 精准 地 测 知人 们 的 好 恶 。 

以 往 ， 不 管 是 消费 、 选 举 、 股 票 涨 跌 ， 这 些 和 “民意 ”息息相关 的 
社会 行为 ， 都 因为 没有 技术 或 数据 可 以 对 人 类 情感 进行 量化 测量 ， 而 无 
法 得 知人 们 如 何在 生活 、 情 感 、 习 惯 的 交互 影响 下 产生 行为 模式 的 变动 。 
企业 或 组 织 大 多 也 只 能 视 民意 如 流水 ， 随 之 载 浮 载 沉 。 现 在 ， 借 由 大 数 
据 分 析 已 经 可 以 对 人 们 进行 行为 和 情绪 的 细节 化 测量 。 以 2012 年 股票 首 
次 公开 发 行 (IPO) 的 Facebook 股价 为 例 ， 在 此 之 前 因为 Facebook 用 户 
快速 增加 ， 导 致 股价 预 估 值 不 断 调 高 ， 没 人 有 把 握 预 测 Facebook 上 市 当 
天 股价 的 走势 。 

Twitter 实时 分 析 平台 DataSift 利用 58 665 位 用 户 产生 的 95 019 条 
tweet， 并 与 Facebook IPO 当天 的 股价 对 应 ， 发 现 Facebook IPO 当天 ， 
Twitter 上 发 布 有 关 Facebook 的 相关 消息 ， 其 情感 倾向 可 以 做 为 股价 走势 
的 领先 指标 。 以 Facebook 挂牌 当天 (2012 年 5 月 18 日 ) 的 股价 为 准 ， 
开盘 后 Twitter 上 的 帖子 情感 转向 负面 时 ，25 分 钟 之 后 Facebook 股价 开 
始 下 跌 ; 而 当 Twitter 上 的 情感 转向 正面 时 ，Facebook 股价 也 在 8 分 钟 之 








破坏 式 的 全 新 竞争 力 


后 开始 回 弹 ,分析 结果 显示 Twitter 上 每 一 次 正 负面 情感 的 转向 都 可 以 预 
知 Facebook 股价 的 波动 ( 见 图 3-3 )。 


图 3-3 Twitter 上 的 公众 情感 转向 与 Facebook 骨架 波动 成 正比 








一 般 兴趣 和 股价 

5 月 18 日 : 早上 10 点 -下 午 1 点 (美国 东部 时 间 ) 
美股 开 市 前 ， 大 众 情绪 MEFE, 收盘 前 
大 众 情绪 恢复 然后 回升 情绪 又 降 
开始 转 负 e ° ° ° 
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数据 来 源 ，Datasift 

发 现 tweet 与 股价 变动 关联 性 的 还 有 英国 伦敦 基金 公司 Derwent 
Capital Markets。 该 公司 在 2012 年 5 月 推出 世界 第 一 只 基于 Twitter 
上 的 公众 情绪 来 进行 投资 的 对 冲 基金 ， 并 承诺 每 年 15% 一 20% 的 高 回 
报 率 。 

这 套 社交 媒体 情绪 追踪 系统 , 将 1 亿 条 tweet， 比 较 正面 评价 和 负 
面 评价 ， 并 区 分 成 : 冷 天、 警惕、 确信 、 重 要 、 和 善 、 快 乐 6 种 情绪 。 
先前 已 以 此 预测 道 琼 指 数 走 势 ， 准 确 率 高 达 87.6%， 而 在 2011 年 7 月 


的 全 球 股灾 之 中 ，Derwent 也 维持 1.85% 报 酬 率 ， 领 先 S&P 500 指数 
(FRR 2.2% )。 

除了 预测 大 盘 走 势 之 外 ， 也 有 学 者 利用 Twitter 中 包含 美股 代码 和 美 
元 符号 ， 针 对 提 到 标 普 100 指数 成 分 股 公司 的 25 万 条 tweet， 依 照 买 入 、 
持 有 或 卖 出 3 种 信号 进行 拣选 。 研 究 结果 不 仅 发 现 了 Twitter 情绪 与 股票 
价格 之 间 的 高 度 相关 ， 最 令 人 兴奋 的 是 ， 依 据 研究 者 设 定 的 Twitter 买 入 
信号 ， 买 入 强度 最 大 的 前 3 只 股票 ， 卖 空 处 于 底部 的 3 只 股票 ， 半 年 时 
间 可 获得 高 达 15% 的 报酬 率 。 

不 过 , 研究 中 也 发 现 来 自 于 tweet 的 信号 过 度 集中 也 稍 纵 即 逝 ,最 佳 
的 持 股 期 限 仅 为 1 天 ， 而 且 如 果 交 易 的 股票 数量 多 于 分 别处 于 项 端 和 底 
部 的 6 只 股票 的 话 ， 报 酬 率 就 会 降低 。 

虽然 这 些 研 究 结果 和 相关 投资 产品 目前 还 是 受到 多 方面 的 质疑 ， 例 
如 有 人 认为 Twitter 情绪 指标 无 法 预测 出 给 市 场 带 来 冲击 的 突 发 事件 ， 而 
且 许 多 词汇 在 特定 行业 中 的 意 感 另 有 所 指 ， 本 能 并 不 包含 价值 判断 。 例 
如 vice ( 恶 行 ) 这 个 宝 在 金融 业 中 通常 指 的 是 vice president ( 副 总 裁 )- 
三 crude (残忍 ) 则 是 指 crude oil ( 原油 )。 但 是 ,社交 网 站 上 的 帖子 的 确 
实时 反应 了 人 们 的 情绪 ， 而 人 们 的 情绪 又 带动 子 他 们 的 投资 或 购买 行为 ， 
甚至 形成 一 种 意见 气候 ， 影 响 力 护 及 群体 ， 这 代表 了 社交 媒体 已 成 为 瓯 
察 大 量 人 和 群 实时 行为 的 一 扇 窗 。 而 借 由 大 数据 分 析 针 对 社交 媒体 上 汇集 
的 数 万 条 消息 ， 进 行情 感 语义 分 析 ， 已 使 得 人 们 行为 和 情绪 的 细节 化 测 
量 成 为 事实 。 

史 隆 管理 学 院 教授 布尔 约 尔 松 (Erik Brynjolfsson ) 以 “现代 版 _ 


云端 时 代 杀 手 级 应 用 : 


7 | kasi 





破坏 式 的 全 新 竞争 力 
‘an 2 


的 显微镜 革命 " 来 形容 大 数据 分 析 的 潜在 影响 力 。 显微镜 是 在 4 个 世 
纪 以 前 发 明 的 ， 这 项 发 明 让 人 们 看 到 了 小 到 肉眼 看 不 见 的 生物 细胞 ， 
并 可 以 对 其 进行 测量 ， 成 为 测量 领域 中 的 一 场 革命 ， 也 自 此 改变 了 

大 数据 分 析 就 像 是 现代 世界 的 显微镜 ， 可 以 测量 和 分 析 无 数 从 传 
感 器 里 流出 ， 或 是 上 亿 条 社交 网 站 帖子 的 “纳米 数据 ”( nano data), 
至 此 之 后 所 有 的 决策 行为 都 将 可 基于 数据 和 分 析 做 出 ， 而 非 基于 经 验 
和 直觉 。 

运用 大 数据 分 析 社交 网 站 的 帖子 结构 ， 也 发 现 了 人 际 网 络 运作 方式 
的 另 一 种 角度 。 在 20 世纪 的 60 年 代 ， 哈 佛 大 学 利用 包 衷 作为 研究 媒介 ， 
进行 了 一 项 与 社交 网 络 相关 的 著名 实验 ， 也 就 是 先 将 包 囊 寄 往 美国 中 西 
部 地 区 的 志愿 者 ， 指 导 他 们 如 何 将 包 庄 带 给 波士顿 的 陌生 人 ， 但 却 必须 
以 邮寄 的 方式 来 交付 包 衷 ， 也 就 是 先 把 包 衷 寄 给 某 一 个 你 所 认识 的 A， 
再 寄 给 A 所 认识 的 B， 最 后 送 到 实验 指定 的 目标 者 。 

结果 发 现 , 一 个 包 囊 换 手 的 平均 次 数 仅 为 6 次 左右 , 这 就 是 所 谓 “ 小 
世界 现象 "， 并 以 此 发 展 了 人 际 网 络 中 经 典 的 六 度 分 隔 ( six degrees of 
separation ) 理论 。 社 交 媒 体 进一步 实现 了 这 个 理论 ， 甚 至 将 分 隔 缩小 为 
3 度 、4 度 。 不 过 ， 我 们 进行 大 数据 分 析 之 后 ， 却 发 现 你 认识 但 不 经 常 联 
系 的 人 ， 也 就 是 在 社会 学 中 被 称 为 “ 弱 连 结 ”( weak ties) 的 人 ， 反 而 是 
职务 空缺 、 小 道 消息 的 最 佳 来 源 。 

原因 是 与 关系 亲密 的 朋友 相 比 ， 这 些 人 在 和 你 略 有 不 同 的 社交 世界 
中 生活 ， 因 此 能 看 到 你 和 你 的 好 朋友 们 所 无 法 看 到 的 机 会 。 这 种 以 “ 相 


ona 


近 性 ”取代 “相似 性 ”的 观察 ， 已 经 成 为 企业 开发 新 消费 群 族 的 重要 新 
依据 ， 而 这 类 从 大 数据 中 发 展 出 的 无 限 商机 ， 也 成 为 全 球 大 型 企业 探索 
新 需求 、 开 发 新 市 场 的 关注 焦点 。 


转变 中 的 企业 核心 资产 


大 数据 分 析 除 了 让 企业 更 贴近 消费 者 ， 并 以 此 开发 新 市 场 、 新 服务 
之 外 ,也 正在 促使 传统 的 商业 价值 转变 。 过 去 ， 衡 量 一 个 企业 最 重要 的 
资产 无 外 乎 土地 、 流 动 资金 和 人 才 等 几 个 生产 要 素 ， 如 今 , “数据 ”已 成 
为 企业 另 一 项 重要 的 核心 资产 。 

2012 年 初 的 瑞士 达 沃 斯 论坛 上 ,发 表 了 一 份 名 为 《大 数据 ， 无 限 影 
响 》( Big Data, Big Impact) 的 报告 ， 其 内 容 指出 数据 将 是 未 来 新 兴 的 经 
济 资产 ， 其 地 位 与 重要 性 等 同 于 黄金 和 货币 。 

除了 “ 钱 "， 以 往 “ 人 ”也 被 视 为 企业 另 一 项 核心 竞争 力 ， 因 为 企 
业 运 作 的 智慧 ， 分 布 、 存 储 在 这 些 人 才 的 大 脑 中 ， 而 在 传统 的 商业 价值 
中 ,数据 的 效益 仅 止 于 经 过 图 表 、 规 则 、 数 值 等 方式 呈现 ， 交 由 这 些 管 
理 人 才 或 策略 专家 解读 ， 再 凭借 着 专家 个 人 的 经 验 判 断 来 拟订 未 来 的 发 
展 策略 。 

然而 ， 在 数据 分 析 技 术 的 演进 下 , “数据 ”不 再 是 图 表 ， 而 是 一 种 能 
让 业务 流程 智能 运转 的 能 力 、 一 个 让 企业 增长 转型 的 关键 。2010 年 ， 麻 
省 理工 史 隆 管理 学 院 与 IBM， 针 对 100 多 个 国家 、30 多 个 行业 、 UE 3000 位 
高 层 主管 的 一 项 调查 中 发 现 , 绩效 表现 优秀 的 企业 运用 分 析 技术 (5.4) 比 
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“BA LM 3 7).- 合 如 ， 通 过 行为 分 析 让 客户 群体 持续 背 长 ， 通过 信息 二 
管理 、 业 务 分 析 、 内 容 管理 等 帮助 企业 优化 业务 流程 : 通过 财务 规划 分 

析 改 企业 利润 结 结构 和 成 本 来 源 ， 通 过 分 析 洞 察 预测 未 来 的 法 规 要 求 及 ” 
-三 管理 风险 ; on 2 : 








财务 管理 与 预算 
运作 与 生产 
.战略 与 业务 开发 
销售 与 营销 
一 客户 服务 
一 产品 研发 _ 
综合 管理 
风险 管理 
客户 体验 管理 
-品牌 或 市 场 管理 
二 升 查理 计划 与 分 配 m- TN n 
ep E A E 50} 40.7080 
I 表现 较 差 者 - 1 表现 较 差 者 的 平均 值 “5.4 表现 优秀 者 的 平均 值 


注 : 此 调查 结果 为 由 受 访 者 指出 其 企业 在 以 上 活动 中 利用 分 析 技 术 的 情况 ;10 分 表示 充分 
MASHER, THO 分 表示 利用 直 党 或 非 分 析 方法 - 
数据 来 源 ，MIT 史 隆 管理 评论 与 1BM 商业 价值 研究 院 分 析 研 究 合作 项 目 .(Massachusetts 
Institute of Technology 2010) 


”而 表现 较 差 的 企业 则 是 在 客户 服务 、 产 品 研发 、 风 险 管理 、 品 牌 管 
-=- 理 ,生产力 计划 等 大 多 数 的 项 目 都 倾向 利用 直 党 进行 判断 。 这 项 调查 也 一 
发 现 ， 在 "利用 分 析 技术 指导 未 来 策略 ”上 ， 表现 优 秀 者 (45% ) 比 表现 、 














BEER (20%) 高 出 一 倍 ,在 “利用 分 析 技术 指导 自 常 运作 ”的 比例 上 
表现 优秀 者 (53% ) 比 表 现 较 差 者 (27% ) 也 高 出 一 倍 。 
到 了 2011 年 ; 这 项 调查 将 样本 数 扩大 到 4,500 份 ; 调查 发 现 有 58%: 
的 企业 运用 分 析 技术 创造 竞争 优势 ( 2010 年 的 比例 为 37% ), 而 且 应 用 程 
度 较 深 的 “已 转型 ”企业 和 “经 验 丰富 ”的 企业 ， 和 仅 是 “有 意愿 转型 
的 企业 之 间 ， 续 效 差距 持续 扩大 -同时 ， 大 多 数 企 业 较 依赖 分 析 技术 做 
出 关于 财务 和 运营 活动 的 决策 ， 但 已 转型 的 企业 则 是 在 客户 面 - 人 力 次 


源 面 和 策略 面 ， 使 用 分 析 技 术 的 比例 较 高 ( 见 图 3-5 ). 
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ne per role _ 目 有 志向 : 征 经 验 礼 富生 已 转 型 
二 法 企业 依 烛 数据 和 分 析 技术 执行 上 述 活动 的 比例 .选择 范 园 从 记 站 筑 / 经 验 、3= aE / sR ”一 
各 占 一 半 、5= 数据 / 分 析 。 i 
KERRE: MT 史 隆 管理 评论 与 IBM i (Massachusetts institute Pes 
Techno-logy 2 2011)7=: = F 
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破坏 式 的 会 新 竞争 力 。 


管理 顾问 公司 麦肯锡 (McKinsey & Company) 不 只 一 次 指出 ， 利 - 
用 数据 分 析 来 指导 决策 的 企业 ， 比 起 一 般 企 业 生产 力 更 高 ， 净 资产 收 


益 率 也 更 高 ， 其 中 尤 以 “联网 型 组 织 ” 最 具 优 势 。 联 网 型 组 织 指 的 是 - 


开放 内 部 的 信息 渠道 以 及 通过 网 络 数据 交流 ， 让 客户 和 供 货 商 共同 参 
与 的 企业 。 

换言之 ， 大 数据 分 析 将 是 企业 的 新 资产 ， 就 如 同 强大 的 品牌 一 样 ， 
是 形成 竞争 力 的 重要 基础 。 你 所 拥有 的 数据 越 广大 、 越 多 元 ， 你 驾驭 这 
些 数据 的 能 力 越 高 ， 就 越 能 在 市 场 胜出 。 

在 大 数据 分 析 越 来 越 被 重视 的 情况 下 ， 企 业 和 组 织 急 需 新 技能 、 新 
视野 ， 以 及 新 人 才 。 麦 肯 锡 全 球 研究 院 (McKinsey Global Institute, MGE) 
研究 报告 显示 ， 单 是 美国 就 需要 14 万 到 19- 万 名 拥有 深度 分 析 专长 的 下 
作者 ， 以 及 150 万 名 精通 数据 的 经 理 人 。 

这 让 我 想到 了 一 个 有 趣 的 例子 , 还 记得 18 年 前 风靡 一 时 的 美国 情景 
喜剧 (六人行 ) 吗 ”这 部 由 美国 NBC 电视 台 制 播 , 从 r994 年 开播 到 2004 
年 才 落 幕 的 经 典 之 作 ， 前 几 季 的 内 容 中 一 直 都 有 个 谜团 ， 那 就 是 钱 德 勒 
(Chandler Muriel Bing ) 到 底 是 做 什么 的 ? 

剧 中 ， 钱 德 勒 好 几 次 向 朋友 们 解释 他 的 工作 内 容 ， 表 明 他 的 工作 职 
称 是 an executive specializing imrstatistical analysis and data reconfigu-ration 
《中 文 译 为 “统计 分 析 和 数据 重组 行政 专员 ” )， 但 还 是 完全 没有 人 知道 他 
到 底 靠 什么 维 生 ， 甚 至 连 职 位 都 没 人 记得 住 。 

这 个 桥 段 成 为 剧 中 的 经 典 笑料 ， 一 次 在 好 友 “ 琐 事 比赛 ”中 ， 瑞 秋 
真 的 不 记得 钱 德 勒 的 工作 ， 只 好 乱 编 一 个 新 闻 ， 叫 他 “ranspondster"; 莫 


3g 


75 


妮 卡 坦承 好 几 次 钱 德 勒 在 谈论 他 的 工作 时 ， 她 都 在 吹牛 ; 乔 伊 也 曾 对 着 
钱 德 勒 大 声 斥责 ,“ 你 竟然 还 敢 叫 自己 会 计 师 ? ”而 当时 钱 德 勒 对 此 也 只 
能 疑惑 地 回答 ,“ 我 的 确 不 是 啊 !1” 

的 确 ， 在 十 几 年 前 ， 多 数 人 还 不 知道 数据 资料 分 析 可 以 做 些 什 么 的 
时 候 ， 想 要 让 别人 理解 这 个 工作 的 内 容 ， 的 确 不 是 一 件 容 易 的 事情 。“ 生 
不 笑 时 ”的 钱 德 勒 最 终 在 剧 中 秤 了 工作 ， 改 当 广 告 文案 。 但 是 到 了 现在 ， 
钱 德勤 的 工作 已 成 为 硅谷 最 炙手可热 的 热门 职 缺 。 

美国 《财富 》 杂 志 (Fortune) 发 现 美国 在 超过 9% 的 高 失业 率 的 恶 
劣 情况 下 ， 数 据 科学 家 (data scientist) 却 成 为 各 个 公司 大 力 网 罗 的 人 才 。 
数据 科学 家 的 主要 工作 内 容 ， 就 是 为 企业 分 析 每 天 搜集 的 大 数据 信 
息 ， 从 内 部 的 销售 报告 ， 到 客户 发 布 的 Twitter 消息 都 包含 在 内 。Google、 
亚马逊 ( Amazon )、 沃 尔 玛 等 公司 常年 设置 这 个 职位 ， 而 斯 坦 福 大 学 
( Stanford University ) 开办 的 数据 采集 课程 也 相当 热门 ， 去 年 有 超过 
120 名 学 生 报 名 上 这 门 课 ; 不 过 5 年 前 这 门 课程 首次 开放 时 ， 仅 仅 招揽 
到 20 名 学 生 。 

数据 分 析 突然 从 索然 无 味 的 数学 领域 ， 变 成 抢手 的 主流 学 科 ， 这 代 
表 的 是 ， 人 们 已 经 认 知 到 数字 和 统计 学 是 有 趣 的 、 实 用 的 ， 其 至 是 很 酷 、 
很 时 尚 的 。 此 外 ， 大 数据 分 析 也 促使 一 种 葛 基 于 数据 的 新 商业 形态 在 市 
场 上 出 现 ， 我 们 称 之 为 “数据 经 济 ”。 

例如 ， 一 家 运输 公司 在 经 营 过 程 中 必须 收集 全 球 产品 运输 的 大 量 信 
息 ， 于 是 创办 了 一 个 业务 部 门 ， 专 门 为 其 他 企业 和 经 济 预 测 单位 提供 辅 
助 信息 ; 电信 公司 通过 数 以 千 万 计 的 客户 数据 ， 以 及 人 们 在 社交 媒体 上 
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破坏 式 的 全 新 竞争 力 
aat i 


的 活动 ， 利 用 大 数据 分 析 发 据 出 多 种 使 用 者 的 行为 和 趋势 ， 将 这 类 数 
据 和 数据 分 析 结果 卖 给 有 需要 的 企业 。 在 越 来 越 多 企业 或 组 织 意识 到 
数据 的 价值 之 后 ， 这 类 贩卖 数据 、 分 析 数 据 的 产业 势必 将 成 为 下 一 个 
热门 行业 。 


小 结 


在 大 数据 分 析 的 浪潮 下 ， 世 界 的 面貌 即将 改变 ,“ 数 据 ” 将 登 上 舞台 
的 中 央 。 现 阶段 ， 我 们 已 经 可 以 从 所 有 的 终端 设备 获取 数据 ， 然 后 加 以 
分 析 ， 最 后 做 出 实时 的 决策 ， 例 如 从 智慧 水 表 、 电 表 的 传感器 中 提取 数 
HEHE (data stream )， 利 用 这 些 实时 数据 节约 40% 的 能 源 。 那 么 未 来 ， 大 
数据 分 析 还 可 以 为 我 们 做 些 什么 ? 

根据 麦肯锡 估算 ， 如 果 企业 或 组 织 能 充分 利用 大 数据 分 析 ， 每 年 它 
可 以 为 美国 医疗 业 带 来 3000 亿美 元 ， 为 欧洲 的 公共 部 门 带 来 2500 (ZK 
元 的 潜在 价值 ， 零 售 业 也 可 因此 将 其 利润 提高 60% 以 上 。 因 为 对 企业 或 
组 织 来 说 ， 当 你 可 以 用 实时 或 近乎 实时 的 速度 ， 整 合 来 自 不 同 渠道 的 庞 
杂 数 据 ， 并 运用 强大 的 计算 能 力 分 析 和 挖掘 ， 趋 势 就 像 是 一 幅 图 片 ， 不 
再 只 是 像素 ， 而 是 一 块 拼图 ， 让 我 们 可 以 理解 它 ; 如 果 可 以 理解 它 ， 我 
们 甚至 就 可 以 预测 它 的 发 生 轨 迹 。 

尽管 目前 大 数据 分 析 的 市 场 仍 在 初 襟 阶段 ， 但 它 最 终 将 会 成 为 决定 
企业 、 组 织 ， 甚 至 国家 ( 不 仅仅 是 企业 ) 竞争 力 的 关键 因素 。 更 进一步 
思考 ， 我 们 所 做 的 每 件 事 情 、 每 个 行动 ， 都 源 自 于 我 们 自身 的 经 验 ， 而 




















这 些 经 验 都 是 数据 资料 ， 它 帮助 我 们 在 生活 中 做 出 决定 ， 所 以 就 某 种 意 

义 上 来 说 ,整个 世界 都 需要 做 数据 分 析 ， 不 是 吗 ” 人 类 经 历 了 铁器 时 代 、 

原子 时 代 和 计算 机 时 代 ， 现 在 我 们 正在 步 入 真正 的 “分 析 时 代 "; 或 许 在 
未 来 ， 人 们 将 会 这 么 称呼 它 。 
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上 一 章 中 ， 我 们 提 到 “数据 ” 正 逐 渐 成 为 与 实体 资本 和 人 力 资 
在 源 同 等 重要 的 资产 ， 但 是 或 许 你 还 没有 意识 到 ， 我 们 每 一 个 人 
手边 拥有 的 数据 资料 有 多 大 的 价值 。 

根据 网 络 安全 技术 公司 McA fee 估算 , 一 个 网 络 用 户 拥有 的 数字 资产 
(digital assets ) 平均 价值 为 37 438 美元 。 这 些 配置 在 计算 机 、 平 板 电脑 和 
智能 手机 里 的 数字 资产 ， 包 括 娱乐 档案 ( 例如 音乐 下 载 )、 个 人 记忆 ( 例 
如 数码 相片 )、 个 人 通信 ( 例如 电子 邮件 或 日 历 )、 个 人 记录 ( 如 卫生 、 
金融 、 保 险 等 数字 数据 )、 职 业 信 息 ( 例如 简历 、 投 资 组 合 、 电 子 邮 件 联 
系 人 )， 以 及 你 的 兴趣 爱好 和 创作 。 

以 全 球 平均 水 平 来 看 ， 一 位 受 访 者 至 少 有 2777 份 数字 档案 ， 其 中 与 
工作 有 关 的 数据 资料 价值 最 高 ， 平 均 为 3798 美元 ， 与 个 人 嗜好 有 关 的 数 
据 次 之 ， 价 值 约 为 2848 美元 ， 个 人 通信 等 价值 约 为 2825 美元 ， 娱 乐 档 
案 价值 约 为 2092 美元 。 

为 什么 个 人 数字 数据 可 以 有 这 么 高 的 价值 ? 原因 就 在 于 它 已 被 视 
为 企业 的 战略 性 资产 ， 企 业 可 以 运用 这 些 个 人 数字 数据 开发 出 差异 化 
的 商品 ， 借 此 改变 用 户 的 体验 进而 影响 销售 额 。 同 时 这 些 用 户 的 使 用 
或 购买 又 可 以 帮助 企业 累积 更 多 的 个 人 数字 数据 ， 形 成 由 数据 驱动 的 
经 济 循 环 。 

因此 , 有 越 来 越 多 企业 愿意 投资 在 大 数据 分 析 上 , 根据 Gartner 调查 ， 
目前 有 27% 的 企业 已 经 投资 了 大 数据 分 析 系 统 ， 也 有 31% 的 企业 预计 在 
接 下 来 的 2 年 内 投资 ( 见 图 4-1 )， 希 望 能 加 强大 数据 分 析 相 关 硬 件 和 软 
件 的 能 力 。 
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你 的 企业 / 组 织 是 否 已 经 对 大 数据 分 析 技术 进行 投资 ? 







是 否 已 经 对 大 数据 分 析 
技术 进行 投资 ? 


| 31% 计划 在 未 来 的 两 年 


25% 已 经 投资 
| 内 进行 相关 技术 投资 


数据 分 析 相 关 技 术 


数据 来 源 ，Gartner 
企业 : 预测 使 用 者 行为 


不 过 ， 目 前 对 大 多 数 企业 来 说 ， 所 利用 的 数据 资料 量 ， 还 不 到 所 获 
得 的 5%。IBM 首席 科学 家 强 纳 斯 ( Jeff Jonas ) 就 预测 ， 在 大 数据 分 析 时 
代 很 多 企业 现在 还 可 以 弄 懂 7% 的 企业 数据 , 但 这 个 数字 很 快 就 会 下 降 到 
4%， 然 后 继续 螺旋 式 下 降 。 

数据 价值 尚未 完全 被 挖掘 ， 和 我 们 之 前 提 到 大 、 杂 、 快 、 疑 的 大 
数据 出 现 有 关 ， 这 也 是 企业 为 什么 需要 大 数据 分 析 的 第 一 个 原因 。 从 
数据 量 来 看 ， 各 个 产业 拥有 的 数据 资源 (data resoures) 其 实 并 不 少 ， 
根据 麦肯锡 全 球 研究 院 统计 ， 光 是 2009 年 美国 各 行业 储存 的 数据 资料 ， 


拥有 1000 名 员工 以 上 的 单 家 公司 就 至 少 存 有 150 太 字 节 (TB) 的 数 
据 ， 而 产业 总 储存 量 更 高 达 6888 拍 字 节 ( PB )。 有 些 产 业 则 拥有 相 较 
于 其 他 公司 更 多 的 数据 资料 ， 例 如 人 金融、 媒体 、 医 疗 产业 ， 以 及 政府 
部 门 。 

照 理 说 ， 拥 有 更 多 的 数据 ， 代 表 获 取 数 据 潜在 价值 的 可 能 性 越 大 。 
但 是 实际 上 企业 常常 却 是 坐 拥 宝山 、 空 手 而 回 ， 主 要 原因 是 在 不 同 产业 
中 所 产生 的 数据 类 型 ， 也 存在 着 很 大 的 差异 ( 见 图 4-2 )， 例 如 金融 业 、 
政府 部 门 、 零 售 业 会 产生 大 量 的 文本 和 数字 数据 ， 而 制造 业 、 医 疗 业 、 
媒体 业 则 是 会 产生 大 量 的 图 片 、 影 音 等 多 媒体 数据 。 
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大 数据 分 析 可 创造 的 潜在 机 会 
MERA SHA) A 大 一 般 BE 小 MB 非常 小 (与 其 他 产业 相 比 ) 
数据 来 源 : Garner 


多 媒体 数据 的 增生 ， 让 企业 即使 储 放 了 好 几 “ 吨 ”的 数据 ， 却 可 
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应 用 案例 : 从 营销 


能 无 法 用 “年 ”来 排序 、 检 查 这 些 数 据 ， 更 媚 论 分 析 了 。 这 种 情况 使 
得 企业 开始 思考 数据 的 整合 和 应 用 , 希望 能 借 由 大 数据 分 析 系统 从 这 
些 “ 新 品种 ”的 数据 和 内 容 中 ， 获 取 有 意义 的 信息 ， 并 且 创 造 新 的 
机 会 。 

第 2 个 企业 开始 关注 大 数据 分 析 的 原因 是 ， 市 场 权力 已 逐渐 转移 到 
消费 者 的 身上 ， 企 业 希 望 借 由 大 数据 分 析 更 加 了 解 它 的 客户 。 就 如 同 索 
尼 (Sony ) 创办 人 出 井 伸 之 解释 索尼 衰落 的 原因 时 所 说 ,“ 基 于 网 络 时 代 
DNA 而 生成 的 新 一 代 企业 ， 其 核心 能 力 在 于 利用 新 模式 和 新 技术 更 加 贴 
近 消 费 者 ， 并 且 深刻 了 解 他 们 的 需求 ， 借 此 有 效 分 析 信息 并 做 出 预 判 ， 
而 未 来 传统 的 制造 公司 都 只 能 沦 为 这 种 新 型 用 户 平台 公司 的 附庸 ， 这 样 
的 趋势 不 是 靠 管理 就 能 够 扭转 的 。 

过 去 ， 营 销 人 员 都 将 精力 集中 在 大 众 市 场 ; 从 制造 业 的 角度 来 
看 ， 事 情 非 常 简单 。 以 美国 为 例 ， 凯迪拉克 属于 有 钱 人 ， 中 产 阶级 喜 
欢 雪 佛 兰 ， 庞 狄 克 则 是 为 喜欢 要 酷 炫 禄 的 年 轻 人 而 设计 的 ， 而 农夫 ， 
则 买 小 货车 就 够 用 了 。 所 以 ， 我 们 回顾 20 世纪 的 制造 业 ， 其 最 高 准则 
就 是 “大 量 生产 ”， 不 管 是 你 吃 的 巧克力 、 穿 的 牛仔 裤 或 是 开 的 小 轿 
车 , 都 是 工厂 大 量 制 造 的 产品 , 然后 借 由 大 众 媒体 让 一 般 人 了 解 这 些 
产品 。 

这 种 求 取 最 大 经 济 规模 的 营销 模式 ， 在 二 次 世界 大 战 之 后 的 数 十 年 
间 ， 从 美国 开始 席卷 了 欧洲 、 亚 洲 和 全 世界 大 部 分 的 区 域 。 在 这 样 的 工 
业 时 代 里 ,广告 宣传 只 要 把 所 有 人 根据 收入 、 性 别 和 居住 地 区 ， 区 分 为 5 
类 或 6 类 ， 然 后 磺 钱 在 他 们 阅读 的 杂志 或 观赏 的 电视 节目 上 打 广 告 ， 因 
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为 产品 几乎 都 是 大 同 小 异 ， 谁 的 知名 度 高 、 谁 的 品牌 大 ， 谁 就 获得 消费 
者 的 青睐 。 

但 现在 ， 这 一 切 已 经 改变 了 。 计 算 机 的 普及 让 制造 流程 拥有 更 大 的 
弹性 ， 只 要 一 个 简单 的 指令 ,饮料 生产 线 就 可 以 马上 把 柠檬 汽水 变 成 郴 
子 汽水 ， 织 布 机 可 以 从 条 纹 图 案 改 为 格子 图 案 。 由 于 制造 商 可 以 迅速 把 
同一 种 产品 做 出 数 十 种 口味 、 形 态 的 变化 ， 让 消费 者 开始 有 除了 “价格 ” 
以 外 的 选择 权 。 今 天 的 消费 者 要 的 是 以 适当 的 价格 ， 提 供 我 们 想 要 的 口 
味 、 颜 色 、 质 地 或 触感 。 

消费 市 场 正 从 企业 主导 的 经 济 型 态 ， 转 变 为 由 消费 者 驱动 的 经 济 型 
态 ， 这 表示 营销 人 员 必 须 把 每 一 个 人 当成 不 同 的 营销 目标 。 为 了 了 解 这 
种 广大 ， 却 又 单一 的 新 消费 观 ， 营 销 人 员 不 可 能 挨家 挨户 登门 拜访 ; 但 
是 他 们 可 以 借 由 追踪 和 分 析 各 种 渠道 中 不 断 流出 的 数据 ， 更 贴近 、 理 解 
和 和 预测 使 用 者 的 行为 和 需求 ， 就 像 是 广告 业 的 名 言 :“ 你 知道 有 50% 的 投 
入 被 浪费 了 ， 只 是 你 不 知道 是 哪 50%。” 而 现在 ,企业 可 以 借 由 大 数据 分 
析 清 楚 看 到 那 50% 在 哪里 ， 甚 至 掌握 顾客 消费 行为 ， 挑 起 消费 者 下 一 次 
购买 欲 。 


政府 : 最 具 潜 力 的 应 用 领域 
当然 ， 大 数据 中 的 潜在 价值 ， 绝 非 只 能 应 用 在 商业 上 。 麦 肯 锡 全 球 


研究 院 比较 了 各 个 产业 可 从 大 数据 中 获得 的 潜在 价值 ， 发 现 以 批发 贸易 
业 、 信 息 产 业 、 金 融 保险 业 和 政府 部 门 的 总 体 获 益 最 大 ( 见 图 4-3 )。 
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信息 产业 名 列 其 中 ,应 该 丝毫 不 让 人 觉得 奇怪 ， 因 为 这 个 产业 本 
身 就 是 数据 资料 密集 ， 且 分 析 技术 较为 创新 和 领先 ; 而 金融 保险 业 则 
是 本 身 数据 资料 的 质量 较 好 ， 拥 有 许多 已 经 处 理 过 的 结构 化 数据 。 至 
于 ， 包 括 批发 贸易 、 医 疗 业 、 制 造 业 和 零售 业 ， 他 们 零碎 的 产业 结构 
特性 ， 最 能 阐释 大 数据 大 、 杂 、 快 、 疑 的 特性 ， 但 是 如 果 小 公司 可 以 
创造 、 获 取 、 利 用 大 型 数据 池 ， 来 分 析 数 据 并 得 到 洞察 ， 反 而 更 容易 
创造 价值 。 

最 有 开发 潜力 的 一 块 则 是 政府 的 公共 部 门 。 政 府 收集 了 数 千 万 、 数 
亿 笔 的 民众 数据 ， 而 且 可 信 度 比 一 般 商 业 交 易 来 得 高 。 但 是 公共 部 门 除 - 
了 储存 以 外 ， 很 少 管理 和 利用 这 个 宝贵 的 数据 资源 。 美 国政 府 是 将 大 数 
据 分 析 用 于 公共 安全 管理 的 先行 者 ， 最 经 典 的 案例 就 是 美国 最 大 的 警察 
局 一 一 纽约 市 警 局 (NYPD )。 

纽约 ， 一 个 被 称 为 集 天 堂 和 地 狱 于 一 身 的 城市 ， 它 是 全 世界 的 金融 - 


和 商业 中 心 ， 也 是 美国 人 口 数量 最 多 、 密 度 最 大 、. 多 元 化 程度 最 高 的 城 i- 


市 ,但 它 也 是 著名 的 犯罪 之 都 。 在 20 世纪 90 年 代 ， 在 纽约 平均 每 天 会 
有 6 个 人 死 于 犯罪， 每 小 时 有 16 辆 车 子 不 要 而 飞 。 2 

身 为 这 个 城市 的 守护 者 ， 组 约 市 区 局 的 正式 警官 超过 3.7 万 人 ， aE 

包括 多 不 特殊 职能 部 门 ， 利 如 战术 行动 小 队 : 港 口 巡 逻 、 空 中 支持 、 拆 - 

E 弹 小 组 :反恐 小 组 、 菲 犯 情报 、 打 黑 、 缉 毒 等 ， 另 外 还 有 专门 协助 打击 o 
-计算 机 犯罪 的 小 组 be 也 是 全 世界 第 
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发 生 规律 ,纽约 市 警 局 开始 以 地 图 和 不 同 颜色 的 大 头 针 ， 针 对 地 铁 抢 案 
进行 人 工分 析 ， 预 测 可 能 发 生 抢 动 的 时 间 和 地 点 ， 这 个 方法 成 功 让 地 铁 
抢 案 发 生 率 下 降 了 27%。 

之 后 , 这 个 当时 被 称 为 “未 来 图 表 ”( Charts of the Future ) 的 统计 法 ， 
开始 大 量 运 用 在 偷盗、 毒品 交易 、 帮 派 械斗 等 不 同 的 案件 当中 , 而 以 “ 改 
善治 安 ” 为 主诉 求 的 前 市 长 朱 利 安 尼 ，1994 年 上 任 后 立刻 指示 纽约 市 警 
局 开发 一 套 电子 版 的 “未 来 图 表 ” 系 统 ， 现 在 这 套 以 地 图 为 基础 的 统计 
分 析 系 统 “CompStat”( Computer Statistics, 计算 机 统计 ), 在 警 界 已 经 演 
变 成 为 一 个 专 有 名 词 。 

在 网 络 尚未 普及 的 20 世纪 90 年 代 ， 工 作 人 员 每 天 通过 电话 和 传真 
向 全 纽约 76 个 警 区 收集 数据 资料 ， 再 将 数据 统一 编 录 到 CompStat 系统 
进行 分 析 。 然 后 ， 每 周 两 次 招集 全 警 区 的 指挥 官 ， 发 布 最 新 案件 在 各 个 
辖区 的 地 图 上 的 位 置 和 代表 意义 ， 进 行 未 来 应 对 对 策 以 及 警力 调配 的 模 
拟 。 次 年 ， 凶 杀 案 下 降 了 25%， 车 辆 窃 姿 案 下 降 了 24%， 也 让 朱 利 安 尼 
的 人 气 大 为 攀升 。 

2001 年 震惊 世界 的 9.11 恐怖 攻击 事件 发 生 后 ,美国 政府 开始 以 数据 
资料 分 析 为 基础 ， 在 CIA、FBI 以 及 各 大 城市 警 局 等 公共 安全 管理 单位 ， 
建立 新 的 反恐 和 保安 系统 。 国 防 部 和 IBM 合作 研发 了 “ 流 计算 ”系统 ， 
可 以 针对 动态 性 质 的 大 数据 ， 略 过 数据 仓库 处 理 ， 直 接 加 载 多 元 结构 分 
析 ， 进 行 实时 性 、 高 复杂 度 的 分 析 ， 在 微 秒 之 内 生成 分 析 结果 ， 将 数据 
分 析 系统 在 公共 安全 的 运用 上 往 前 推进 了 一 大 步 。 

由 于 在 9.11 事件 中 发 现 ，19 个 动机 者 当中 至 少 有 11 个 人 持 假 身份 


证 件 入 境 ， 因 此 这 套 系统 最 早 是 用 于 个 人 出 入 海关 时 的 脸 部 识别 ， 后 来 
也 被 运用 在 街头 巡逻 警车 上 。 警 察 在 巡逻 时 扫描 经 过 的 车 辆 ， 就 能 立即 
知道 这 辆 车 是 否 被 列 入 失窃 名 单 ， 若 发 现 可 疑 人 士 ， 系 统 会 将 车 辆 数据 
比 对 其 他 不 同 来 源 的 数据 ， 以 预测 犯罪 活动 。 

例如 ， 一 个 初 入 境 的 外 国 男 子 ， 买 了 一 张 从 开罗 到 洛杉矶 的 单程 机 
票 ， 在 洛 城 当 地 租 了 一 辆 车 ， 并 在 当地 一 家 俄罗斯 银行 提取 了 一 大 笔 
钱 ， 其 间 还 频繁 地 和 叙利亚 方面 电话 联系 ， 然 后 独自 一 人 去 了 迪斯尼 乐 
园 。 原 本 这 些 蛛丝马迹 并 没有 被 串 连 起 来 ， 后 来 因为 他 前 往 迪 斯 尼 的 路 
上 超速 ， 被 停 在 路 旁 的 交警 把 车 辆 数据 记录 了 下 来 ， 并 对 该 名 男子 盘问 
了 一 番 。 

盘问 过 程 中 ， 交 警觉 得 这 个 人 相当 可 疑 ， 于 是 把 数据 回 传 总 部 ， 系 
统 开 始 比 对 出 入 境 数据 、 提 款 记 录 以 及 电话 记录 ， 发 现 他 的 资金 往来 和 
联系 对 象 的 确 非常 可 疑 ; 进一步 比 对 CIA 开罗 办 事 处 收集 到 的 指纹 和 
DNA 样本 ， 以 及 他 在 俄罗斯 、 开 罗 、 叙 利 亚 等 国外 账户 的 交易 情形 ， 加 
上 调 阅 了 迪斯尼 乐园 的 监视 器 画面 ， 发 现 该 名 男子 到 游乐 园 根本 没有 玩 
乐 ， 而 是 花 大 量 的 时 间 拍 照 和 记录 ; 于 是 警方 联合 了 CIA 采取 行动 ， 提 
前 阻止 了 一 场 即将 发 生 的 恐怖 获 击 。 

这 是 CIA 所 提供 的 数据 , 故事 中 的 主角 和 地 点 当然 经 过 了 修改 , 但 
这 也 代表 数据 分 析 系 统 的 功能 ， 对 于 公共 安全 管理 的 贡献 。 目 前 包括 
CIA, FBI 和 各 国 警方 都 开始 利用 类 似 的 数据 分 析 系统 ， 预 测 未 来 的 恐 
怖 袭击 和 重大 犯罪 , 并 成 功 破获 了 像 是 贩毒 组 织 和 非法 交易 儿童 等 重大 
案件 。 
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除了 公共 安全 管理 之 外 ， 公 共 行 政 效率 是 数据 分 析 系统 应 用 的 另 一 
大 重点 。 美 国政 府 一 开始 实行 是 为 了 弊端 丛生 的 医疗 保健 制度 。 美 国 
现行 规模 最 大 的 两 项 医疗 福利 计划 ， 是 1965 年 通过 的 医疗 保险 计划 
(Medicare ) 和 医疗 补助 计划 ( Medicaid )。 前 者 专门 针对 残障 人 士 和 
65 岁 以 上 的 老人 ， 费 用 通过 保险 来 支付 ， 由 联邦 医疗 保险 和 补助 中 心 
(CMS ) 监管 实施 ;后 者 则 是 以 贫困 人 口 为 对 象 ， 费 用 由 政府 直接 支付 ， 
由 CMS 中 心 和 各 个 州 政府 共同 实施 。 

然而 ， 这 两 项 福利 政策 最 大 的 争议 在 于 ， 是 否 会 因为 浮 报 滥用 而 导 
致 全 民 供养 装 穷 的 懒 人 ， 造 成 一 般 民众 看 病 就 诊 必须 支付 高 额 的 费用 。 
因为 根据 2008 年 联邦 调查 局 在 《财务 犯罪 年 度 公开 报告 》 中 估计 ,政府 
每 年 的 医疗 开支 中 有 3% 一 10% 涉 嫌 造 假 和 欺诈 ， 而 上 述 两 项 医疗 福利 政 
策 涉 及 1 亿 人 ， 其 中 的 虚报 账单 、 重 复 申报 、 隐 瞒 收入 和 存款 等 事件 层 
出 不 穷 。 

CMS 决定 通过 数据 资料 来 抓 刺 ,2001 年 由 加 州 率先 推出 “保险 补 
助 双 向 核对 ”( Medical-Medicaid Data Match ) 制度 ， 整 合 两 项 福利 政 
策 的 数据 ， 比 对 其 中 的 人 员 、 时 间 、 价 格 、 地 点 等 ， 以 分 析 系 统 自动 
确认 矛盾 、 异 于 常态 的 支付 记录 ， 一 旦 发 现 造假 或 者 申报 不 实 就 开始 
进行 人 工 追 讨 。2004 年 开始 在 各 州 扩大 实施 ， 施 行 一 年 多 之 后 至 少 追 
讨 回 1500 万 美元 的 超额 申报 。 之 后 除了 CMS 中 心 ， 联 邦 政府 的 各 项 
社会 福利 项 目 都 开始 陆续 采用 这 种 做 法 ,预计 10 年 内 可 以 为 国家 节省 
2000 亿美 元 。 

除了 节省 经 费 以 外 ， 各 国政 府 或 组 织 也 开始 尝试 利用 大 数据 分 析 协 





助 救援 行动 和 预测 经 济 。 联 合 国 在 2070 年 的 海地 大 地 震中 ， 以 追踪 海地 
人 所 持 手 机 内 部 的 SIM- 卡 信号 分 析出 傅 60 万 名 海地 人 移 离 太子 港 之 后 
的 目的 地 ， 提 高 了 救援 的 效率 。 后 来 ， 当 海地 爆发 霍乱 疫情 时 ,同一 批 
研究 人 员 再 次 通过 SEM 卡 追 踪 ， 把 药品 投放 到 正确 的 地 点 ， 也 成 功 阻止 
了 疫情 的 蔓延 。 

此 外 ， 我 们 在 第 1 章 提 过 的 联合 国 “ 全 球 脉动 ”( UN:GlobaFPulse 》 
研究 计划 ， 也 借 由 社交 媒体 贺 站 每 天 产生 的 2.5 艾 字 节 (EB ) 数据 考 
察 公共 议题 的 风 号 、 识 别 经 济 趋势 并 预测 即将 显现 的 问题 。 目 前 他 们 已 
经 利用 “面包 实时 在 线 价 格 ”( Real-Time-E-pricing of Bread), TE 6 个 拉 - 
丁 美洲 国家 建立 每 且 价 格 指数 ， 提 早 测 知 通货 膨胀 的 变化 。 

当前 ， 我 们 的 世界 正 变 得 越 来 越 不 稳定 ， 过 去 几 年 的 全 球 经 济 体系 
也 正 变 得 越 来 越 动荡 。 不 管 是 政府 或 企业 决策 者 都 已 经 意识 到 这 些 不 断 发 
生 的 危机 所 带 来 的 昂贵 代价 。 他 们 想 要 判断 当 危 机 发 生 时 ， 在 哪些 地 方 、 
什么 时 间 、 哪 些 群体 会 受到 多 严重 的 影响 ， 并 且 知道 如 何 预防 或 是 怎么 将 
损失 控制 在 最 小 范围 内 ， 也 开始 注意 到 “大 数据 驱动 政策 ”的 可 行 性 。 

尤其 是 从 公元 前 6 世纪 的 亚历山大 图 书馆 ， 到 无 所 不 搜 的 Google, 
再 到 即将 成 形 的 SoLoMo 趋势 … 现在 我 们 可 以 取得 的 数据 内 容 已 经 变 得 
| SoLoMo $è 201048 DL, 著名 的 KPCB 风险 投资 公司 ( KPCB ) 约翰 + FLAK (John Doerr ) 

所 提出 的 网 络 未 来 趋势 。So=Social， 指 的 是 由 Facebook, Twitter, Zynga 这 些 公司 发 
起 的 社交 化 运动 ， 而 未 来 网 络 应 用 必须 要 靠 着 社交 网 站 来 提供 更 多 价值 。Lo=Local， 
指 的 是 随 着 智能 手机 的 普及 ， 我们 得 到 的 数据 将 会 越 来 越 本 地 化 . 因地制宜， 因此 要 
开发 的 是 基于 位 置 的 服务 (LBS, Location-based Service )，Mo=Mobile， 则 是 指 移动 互 


联网 ( Mobile Internet ) Hite, HOTAT 2013 年 超越 台式 计算 机 ， 成 为 人 们 上 网 的 主 
流 方式 。 
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越 来 越 细致 ， 也 越 来 越 个 性 化 。 如 今 ， 我 们 可 以 利用 极 大 、 极 丰富 的 数 
据 资 源 ( 包括 旧 数 据 和 新 数据 )， 针 对 社会 大 口 、 市 场 趋势 进行 前 所 未 有 
的 实时 、 个 性 化 分 析 ， 这 不 仅仅 是 成 为 企业 提升 核心 竞争 力 的 有 效 方式 ， 
更 提供 子 一 种 保护 人 类 社会 、 协 助 全 球 发 展 的 公共 能 力 ， 接 下 来 将 针对 
每 个 产业 和 政府 的 公共 部 门 ， 让 你 了 解 他 们 怎么 利用 大 数据 ， 让 这 个 世 - 
界 更 安全 、 更 美好 、 更 具 智慧 。 








顾 历史 轨迹 ， 零 售 业 和 经 济 增长 息息相关 。 然 而 近 10 年 来 ， 尤 其 
[+] 是 在 金融 海啸 过 后 ， 整 体 零售 业 的 增长 已 经 趋 缓 。 根据 MGI 调查 ， 
人 们 花 钱 的 额度 正 缓慢 地 减少 。 以 1 美元 来 说 ，1999 年 人 们 花 在 零售 业 的 钱 
约 有 0.6 美元 ， 但 是 到 了 2008 年 却 只 有 0.31 美元 ; 这 不 仅 显示 了 人 们 对 于 日 
常用 品 的 “价格 ”开始 精打细算 ， 也 代表 零售 业 获 取 利润 的 压力 日 渐 升 高 。 
同时 ， 随 着 各 国 的 发 达 程度 增高 ， 就 连 之 前 被 视 为 世界 工厂 的 中 国 ， 
也 逐渐 转 而 成 为 世界 市 场 。 低 人 力 成 本 的 优势 不 再 ， 制 造 业 的 利润 几乎 
被 榨 到 极致 ,为 了 减少 不 必要 的 进货 成 本 ， 零 售 商 转 而 从 消费 者 需求 着 
F, 希望 更 精准 地 在 市 场 上 提供 对 的 产品 。 

不 过 ， 因 为 电子 商务 和 行动 商务 崛起 ，2012 年 以 后 将 有 50% 的 零售 
业 会 跨 入 在 线 购物 或 是 被 在 线 购物 所 影响 。 另 一 方面 ， 现 在 消费 者 选 购 
产品 时 的 参考 依据 ， 网 络 信息 已 经 取代 了 传统 的 广告 。 在 网 络 易于 比较 
商品 信息 和 价格 的 特性 下 ， 零 售 业 必须 想 办 法 让 产品 贴近 消费 者 的 需求 。 
但 是 随 着 消费 形式 越 来 越 复杂 ， 零 售 商 可 能 必须 同时 获得 直销 、 编 目 、 
门市 和 在 线 购物 等 不 同 来 源 的 数据 资料 ， 并 了 解 其 交互 作用 的 脉络 和 意 
义 ， 才 能 得 知 消费 需求 的 全 较 。 

在 消费 者 相关 数据 源 量 大 又 纷 杂 、 且 难以 整合 的 情况 下 ,在 营销 、 
采购 和 供应 链 管理 上 运用 大 数据 分 析 ，“ 整 合 分 散 的 数据 源 "、“ 结 合 内 外 
部 数据 ”及 “网 络 内 容 分 析 ” 将 最 具 潜 在 效益 ( 见 图 5-1). 根据 MGI 估 
计 ， 大 数据 分 析 每 年 将 可 提升 零售 业 0.5% 的 生产 率 ; 而 成 为 大 数据 分 析 
先锋 者 的 单一 公司 ， 借 此 增加 生产 力 、 降 低 成 本 及 改善 营运 效率 之 后 ， 
将 可 以 增加 超过 60% 的 营利 率 。 
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售 业 采 用 大 数据 分 析 的 潜在 效益 


大 数据 分 析 在 零售 业 不 同 的 部 门 有 不 同 的 潜在 价值 








增加 交叉 销售 
定点 营销 
店内 行为 分 析 
客户 微 区 隔 
情绪 分 析 





改善 多 渠道 体验 


商品 组 合 优化 
定价 优化 
商品 摆 放 、 设 计 优化 


表现 透明 度 


劳力 投入 优化 


存货 管理 改进 
物流 优化 


告知 供应 商 协商 内 容 





价格 比较 服务 


B 适用 性 最 高 适用 性 最 低 E: 网 络 市 场 难以 量化 ， 因 此 并 没有 包含 在 此 
数据 来 源 :麦肯锡 全 球 研究 院 
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整合 分 散 的 数据 源 


位 于 美国 俄亥俄 州 的 辛辛那提 动物 园 ， 是 美国 历史 最 悠久 的 动物 园 
之 一 (1875 年 开业 )， 占 地 约 40.5 万 平方 米 的 园区 里 包括 超过 500 种 动 
物 和 3000 种 植物 。 它 同时 也 是 美国 第 一 家 采用 无 隔离 方式 和 游客 互动 的 
动物 园 ， 每 年 平均 游客 量 超过 120 万 人 次 。 

2009 年 ， 辛 辛 那 提 动物 园 遭 遇 了 前 所 未 有 的 经 营 危机 。 当 时 正 值 金 
融 海 吓 发 生 后 不 久 ， 全 美 陷入 经 济 大 衰退 ， 动物园、 水 族 馆 、 博 物 馆 可 
以 拿 到 的 政府 补助 因为 税收 减少 而 大 幅 减少 ， 而 且 到 动物 园 的 游客 量 以 
及 游客 们 游园 时 的 花费 也 大 幅 降低 。 另 一 方面 ， 动 物 园 会 员 人 数 不 但 减 
少 了 ， 入 园 后 的 花费 也 远 不 如 非 会 员 的 游客 。 

对 于 一 个 营运 费用 有 50% 要 依靠 税收 的 非 营利 组 织 来 说 ， 每 年 2600 万 
美元 的 年 度 预算 中 ， 必 须 自 筹资 金 达 1600 万 美元 以 上 。 他 们 要 如 何 自力 
更 生 ， 又 不 给 当地 纳税 人 造成 过 多 负担 ? 营运 团队 决定 借 由 商业 分 析 
(Business Analytics ) 减少 开支 ， 并 增加 入 园 费 、 会 员 人 数 和 食物 、 园 区 
商品 等 现场 销售 的 金额 。 但 是 ， 问 题 在 于 进行 分 析 所 需要 的 数据 ! 

DE, 动物 园 的 营运 数据 来 自 于 入 口 处 、 贩 卖 享 、 游 客 中 心 等 3 个 
不 同 的 来 源 ， 而 且 都 是 由 员工 手 抄 记 录 ， 然 后 一 个 星期 汇 整 一 次 。 所 以 ， 
即使 累积 了 大 量 的 数据 ， 也 无 法 进行 整体 分 析 ， 并 帮助 现场 人 员 进 行 实 
时 性 的 资源 调配 。 占 地 广大 成 了 另 一 项 难题 ， 由 于 园 内 设置 了 多 个 销售 
点 ， 管 理 阶层 要 走 遍 整 个 约 40.5 万 平方 米 大 小 的 动物 园 ， 才 能 知道 会 员 
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们 在 浏览 景点 时 做 了 什么 , 游客 是 如 何 花 钱 的 ， 因 此 常常 不 知道 应 该 提 
供 什么 样 的 产品 和 服务 。 

经 过 调查 比较 ， 辛 辛 那 提 动物 园 最 后 选择 和 IBM 合作 ， 设 计 了 一 套 
横 跨 票务 、 零 售 和 食品 贩卖 的 数据 整合 分 析 平台 ， 汇 整 以 往 的 历史 数据 ， 
同时 在 现场 服务 的 每 位 员工 也 都 必须 把 每 一 个 入 园 游客 ， 和 每 一 笔 商品 
事务 数据 编码 记录 ， 实 时 回 传 到 这 个 平台 。 

经 过 数据 分 析 之 后 ， 园 方 发 现 以 往 动物 园 给 当地 居民 很 高 的 入 园 折 
扣 ， 但 其 实 这 些 会 员 却 不 常 利 用 ， 因 此 决议 删除 这 项 宣传 费用 ， 改 以 会 
员 购买 园 内 商品 时 给 予 折扣 ， 果 然 因 此 提升 了 商品 销售 业绩 。 另 一 方面 ， 
园 方 也 减少 了 年 度 广告 预算 ， 改 以 利用 经 过 编码 记录 后 得 到 的 游客 数据 ， 
寄 送 宣传 品 给 邻近 地 区 到 动物 园 频率 较 高 、 收 入 较 高 的 游客 ， 此 举 不 但 
降低 了 43% 的 广告 费用 ， 而 且 提升 了 4.2% 的 整体 售票 率 。 

另外 ， 以 往 贩卖 亭 的 进货 方式 ， 都 是 员工 以 目测 的 方式 决定 要 不 要 
进货 ， 或 是 进 哪些 货 ; 经 过 数据 分 析 之 后 ， 园 方 发 现 有 些 食物 会 在 特定 
时 段 卖 得 特别 好 。 例 如 在 即将 关 园 的 这 一 段 时 间 内 ， 就 是 冰淇淋 的 销售 
高 峰 期 ， 但 却 常 因为 存货 不 足 而 引起 顾客 抱怨 ， 而 某 些 相关 商品 滞销 已 
久 却 没 人 处 理 。 于 是 他 们 依照 销售 热潮 分 批 进行 补 货 ， 剔 除 滞销 商品 ， 
并 提高 热 销 商品 的 价格 ， 也 让 食品 和 商品 销售 业绩 双双 增长 了 18%。 

这 一 套数 据 整 合 分 析 平 台 ， 也 辅 以 iPad 和 智能 手机 打造 一 个 移动 商 
业 分 析 的 架构 ， 管 理 阶层 不 用 走 遍 园区 ， 就 可 以 将 游客 数据 和 园 内 销售 
数据 集中 到 iPad 上 的 企业 仪表 板 (Dashboard )， 并 据 此 调整 营销 模式 和 
资源 分 配 ， 系 统 也 可 以 主动 利用 智能 手机 让 每 个 员工 快速 得 到 重要 信息 ， 
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当 会 员 入 园 时 也 会 接 到 通知 ， 让 他 们 知道 今日 活动 或 促销 优惠 。 

实行 后 第 一 年 ,辛辛那提 动物 园 在 不 景气 中 增加 了 35 万 美元 的 收入 、 
5 万 人 次 的 新 游客 ， 现 在 因为 这 一 套 系统 得 到 的 平均 年 收益 为 73.8 万 
美元 ， 投 资 回报 率 (ROL) 高 达 411%， 投 资 回收 期 仅 3 个 月 ， 而 且 没 
有 增加 任何 一 名 员工 和 人 事 成 本 ， 甚 至 员工 们 因为 不 再 需要 走动 式 人 
工 记录 数据 ， 可 以 有 更 多 的 时 间 管理 贩卖 服务 、 会 员 服务 ， 以 及 资金 
募集 的 事务 。 


结合 内 外 部 数据 


Sun World International 是 美国 一 家 专门 种 植 和 运输 新 鲜 农产品 的 中 
型 企业 ， 它 从 蔬果 包装 业务 开始 ， 于 20 世纪 80 年 代 跨 足 生产 ， 目 前 拥 
有 超过 6400 公顷 的 耕地 ， 并 和 950 位 签约 农民 合作 ， 主 要 生产 作物 包括 
甜 权 、 葡 萄 、 核 果 和 蔬菜 ， 每 年 出 货 量 高 达 1100 万 箱 ， 除 了 美国 本 地 之 
外 ， 还 外 销 到 意大利 、 澳 大 利 亚 、 智 利 、 墨 西 哥 和 南非 等 地 。 

食品 安全 和 创新 育种 让 Sun World 闻名 业界 。 例 如 , 即使 到 了 9 A, 
你 还 可 以 在 占 地 73 公顷 的 实验 农场 里 看 得 到 无 籽 红 葡萄 ， 就 是 该 公司 借 
由 品种 改良 延长 水 果 生长 季 的 成 果 。 然 而 ， 因 为 全 球 化 商业 的 影响 ， 水 
果 和 蔬菜 等 农产品 都 能 在 短 时 间 内 ， 通 过 空运 送 达 地 球 的 另 一 端 ， 再 加 
上 农产品 容易 因为 气候 影响 而 导致 某 种 作物 在 同一 时 间 内 大 量 采 收 ， 以 
致 于 价格 暴跌 ， 因 此 以 往 Sun World 4 个 种 植 区 的 农场 经 理 每 个 月 会 到 总 
公司 开会 ， 研 讨 之 后 的 预算 、 成 本 和 生产 率 。 
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总 公司 利用 ERP ( 企业 资源 规划 ) 系统 提供 不 同 产品 类 型 、 品 种 和 
地 区 的 销售 、 成 本 及 利润 数据 ， 但 在 当前 全 球 化 市 场 风险 增加 的 情况 下 ， 
Sun World 需要 降低 成 本 并 提高 生产 率 ， 以 便 在 国际 采购 市 场 上 更 具 价格 
优势 , 所 以 除了 既 有 的 公司 ERP 系统 之 外 ,Sun World 希望 能 够 纳入 像 是 
水 成 本 、 燃 料 成 本 和 消费 者 购买 模式 变化 等 参数 ， 将 内 外 部 的 数据 结合 
后 进行 分 析 ， 做 为 农产品 种 植 结构 的 依据 。 

Sun World 和 IBM 合作 ， 进 一 步 借助 数据 分 析 系统 重新 设计 生产 流 
程 。 但 是 一 开始 ， 比 起 数据 ， 经 验 丰 富 的 农民 更 忠于 直 党 ， 他 们 认为 年 
已 比 起 那些 冷冰冰 的 数据 更 了 解 在 哪些 地 区 、 哪 个 时 节 实 施 灌溉 和 施肥 
效果 最 好 。 因 此 系统 导入 初期 仅 用 于 灌溉 系统 ， 以 基于 降低 用 水 成 本 和 
促进 农作物 营养 的 数据 分 析 结果 , 在 水 资源 短缺 的 区 域 以 高 效 滴灌 法 替 
代 传统 的 地 面 灌溉 。 没 想到 ， 效 益 出 乎 农民 们 意料 的 高 ， 以 葡萄 来 说 ， 
收割 成 本 降低 了 5%， 并 减少 20% 的 燃料 使 用 量 ， 同 时 产量 更 是 大 幅 增 
加 50%。 

如 今 ， 农 场 经 理 们 已 经 非常 习惯 使 用 他 们 的 手机 或 PDA， 在 收成 
期 随时 察看 每 一 个 员工 或 农场 的 生产 率 指针 ， 而 且 因 为 数据 分 析 ， 现 
在 Sun World 农场 的 人 力 成 本 减少 了 550 万 美元 , 每 一 亩 耕地 的 利润 增加 
了 8 倍 ; 此 外 , 为 了 提高 销售 人 员 和 客户 协商 时 的 谈判 优势 ， 这 套 系统 
也 设计 了 实时 信息 显示 屏幕 (ticker display )， 可 以 不 断 更 新 全 世界 最 新 
的 农产品 价格 ， 世 让 Sun World 在 波动 的 零售 市 场 中 ， 客 户 数量 每 年 增 
加 20%。 

另 一 家 利用 内 外 部 数据 提高 效率 的 中 型 企业 是 美国 老字号 的 Papa 
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Gino’s 比萨 连锁 店 。 这 家 强调 正宗 意大利 家 庭 食谱 的 比萨 店 ， 从 1961 年 
在 波士顿 开设 的 家 庭 餐 馆 ， 至 今 已 成 为 在 新 英格兰 地 区 拥有 将 近 200 家 
店 的 连锁 企业 ， 提 供 全 系列 的 潜艇 堡 、 沙 拉 、 比 萨 和 意大利 面 。1997 年 
Papa Gino's 并 购 了 百胜 餐饮 集团 旗下 的 D'Angelo 烤 三 明治 店 , 目前 展 店 
数 也 已 超过 100 家 。 

在 淘汰 率 很 高 的 餐饮 业 屹 立 超过 50 年 , Papa Gino's 至 今 仍 保留 可 
供 顾客 观看 比萨 制作 过 程 的 透明 厨房 等 经 典 元 素 ， 同 时 也 不 断 求 新 求 
变 ， 例 如 推出 以 1 美元 换取 一 个 积分 ，50 个 积分 可 以 兑换 5 美元 的 忠 
诚 卡 。 

不 过 ， 就 像 大 多 数 餐 饮 业 一 样 ，Papa Gino's 的 营运 数据 分 散在 3 个 
不 同 的 系统 中 , 包括 ERP、POS 和 Excel， 因 此 光 是 编制 年 度 预算 ， 从 不 
同 的 电子 表格 中 取得 数据 资料 并 整合 到 完成 ， 就 需要 4 个 月 。 

随 着 店 数 越 来 越 多 ，Papa Gino’s 采用 IBM 的 商业 分 析 系 统 ， 建 立 一 
个 可 以 整合 所 有 数据 的 单一 平台 ， 来 加 快 他 们 的 营运 效率 。 除 了 新 的 财 
报 标准 和 预算 编制 过 程 可 以 自动 产生 表单 ， 让 该 公司 财务 人 员 增加 了 
25% 的 工作 效率 以 外 ， 这 套 系统 也 可 以 经 过 比较 目前 和 前 几 年 同期 的 销 
售 数字 ， 提 供 管理 人 员 和 区 域 经 理 两 周 后 的 人 力 需 求 预测 ， 以 确保 顾客 
可 以 得 到 最 好 的 服务 。 

同时 ， 系 统 分 析 订 单 相 关 数 据 后 也 发 现 ， 原 本 Papa Gino's 将 外 送 交 
货 时 间 订 为 45 分 钟 ， 但 实际 上 工作 人 员 可 以 在 不 到 30 分 钟 的 时 间 内 交 
付 ; 总 公司 依 此 调整 交 货 时 间 ， 让 客户 的 期 望 获得 更 大 的 满足 。 另 外 ， 
系统 还 发 现 ， 比 较 网 络 、 电 话 及 其 他 订购 渠道 ， 网 络 顾客 根据 季节 变化 ， 
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占 了 总 订单 的 40% 一 70%， 因 此 Papa Gino's 也 决定 加 强 在 线 服务 。 

在 营销 活动 上 ， 以 往 Papa Gino’s 的 做 法 是 以 电子 邮件 、 短 信和 广告 
邮件 发 送 优惠 券 ， 以 便 对 广大 的 消费 者 进行 促销 。 数 据 分 析 系统 追踪 了 
这 些 优惠 券 实际 使 用 的 情况 ， 并 发 现 网 络 优惠 活动 可 以 促使 顾客 的 用 餐 
率 提高 35%, 在 线 销售 额 增长 50%, 让 从 实体 店面 经 营 起 的 Papa Gino’s, 
更 加 体会 到 网 络 促 动 消费 的 威力 。 目 前 他 们 除了 推出 iPhone、 黑莓 机 和 
Android 移动 平台 的 APP 之 外 ， 也 将 数据 分 析 扩 及 到 Facebook, Twitter 
E, 不 久 后 还 会 纳入 Foursquare ( 链接 社交 和 地 理 位 置 的 网 站 )、Yelp ( 美 
国 最 大 的 点 评 网 站 )、Groupon ( 全 球 最 大 团购 网 站 ) 和 其 他 十 几 个 社交 
网 站 的 数据 。 

Papa Gino's 相信 ， 社 交 媒 体 和 移动 应 用 程序 ( APP )， 在 餐饮 业 的 未 
来 发 展 上 将 有 极 大 的 影响 力 ， 而 结合 这 些 外 部 的 网 络 内 容 数据 ， 将 会 让 
这 家 年 过 半 百 的 连锁 餐饮 企业 更 有 活力 和 创造 力 ， 持 续 居 于 业界 的 领先 
地 位 。 


分 析 网 络 内 容 ， 贴 近 消 费 者 的 心 


在 第 一 线 直 接 面 对 广大 的 个 体 消费 者 ， 让 零售 业 相 较 于 其 他 行业 ， 
更 希望 能 测 知 每 一 个 消费 者 心目 中 的 偏好 ， 也 因此 对 于 大 数据 分 析 在 网 
络 内 容 上 的 应 用 上 相当 关注 。 对 于 零售 商 来 说 ， 由 于 网 络 上 无 法 完全 和 凭 
着 商业 意图 控制 消费 者 意见 ， 所 以 成 为 目前 最 客观 的 消费 者 意见 反映 汇 
道 ， 但 是 要 如 何 让 分 散在 社交 网 站 帖子 、 各 大 讨论 区 的 杂乱 消息 ， 可 以 
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有 意义 的 被 利用 ? 

全 球 第 二 大 的 卡 夫 食品 澳洲 分 公司 ， 就 为 了 澳洲 特有 饮食 文化 中 
最 著名 的 象征 维 吉 痪 ( Vegemite )， 分 析 超过 10 亿 条 社交 网 站 帖子 ， 
以 及 将 近 50 万 条 论坛 的 讨论 内 容 ， 为 这 种 “国民 食品 ”找到 了 新 的 市 
场 价值 。 

维 吉 痪 是 一 种 黑 褐 色 的 抹 着 很 粘 稠 但 不 拉丝 ， 看 起 来 有 点 像 巧 克 
TE, (VEN CRAVE! 有 人 形容 它 和 日 本 纳 豆 或 是 中 国 的 臭 豆腐 
一 样 ， 都 是 外 地 人 难以 理解 - 但 当地 民众 却 相当 喜爱 的 食物 。 这 种 利用 
酿酒 酵母 开发 的 食品 ， 从 _1923 年 开始 就 在 澳洲 和 新 西 兰 开始 流行 ， 而 
现在 在 澳洲 ， 有 70% 的 人 早上 起 床 的 第 一 件 事 ， 除 子 冲 杯 咖啡 之 外 ， 就 
是 在 烤 面 包 上 抹 上 一 层 厚 厚 的 维 吉 济 。 

以 一 个 成 功 的 商品 来 说 ， 维 吉 痪 的 味道 和 外 观 都 是 澳洲 特有 的 ， 
要 改变 其 中 任何 一 个 特质 都 是 不 明智 的 决定 。 不 过 ， 卡 夫 食品 希望 为 
这 个 长 青 商 品 寻求 其 他 消费 机 制 ， 以 延续 这 个 产品 的 生命 周期 ， 于 是 
他 们 决定 为 维 吉 次 推出 一 个 新 的 大 型 宣传 活动 ， 叫 做 “你 有 多 喜欢 维 
HE? "。 

以 往 ， 要 在 占 地 广大 、 种 族 多 元 的 澳洲 进行 一 项 消费 者 营销 调查 ， 
通常 需要 4 一 6 个 月 才能 完成 ， 而 且 还 无 法 赛 括 所 有 不 同族 族 和 文化 背景 
的 澳洲 人 。 要 通过 这 么 狭隘 的 信息 来 改变 一 个 已 经 成 功 的 品牌 ， 其 实 是 
非常 冒险 的 ， 但 是 如 果 针对 数 以 亿 计 的 网 络 帖子 ， 可 能 需要 好 几 年 才能 
收集 完成 。 为 了 找寻 一 个 可 以 收集 各 种 背景 、 各 种 社 经 地 位 的 消费 者 信 
息 和 意见 的 机 制 ， 然 后 将 这 些 数据 资料 运用 到 有 意义 的 方向 来 促进 品牌 
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因 分 析 ,而 且 时 间 只 花 了 短 短 2 个 月 。 =: pole rA EA ee 
2 ARRAK KET ERIRE, TEREKE TNE: 大约 有 : 

50 万 人 ,用 38 种 语言 提 到 了 维 吉 洛 而且 大 家 淡 沦 的 焦点 并 不 是 维 吉普 
-的 威 度 或 尾 产品 包装 而 是 除了 抹 在 烤 面 和 上 以 外 各 种 各 样 不 同 的 吃 法 ， 一 
-以 及 在 国外 怎么 买 到 维 吉 效 ! 而 且 有 数 十 万 澳洲 人 以 创新 或 不 同 的 方式 
食用 他 们 的 维 者 阁 ， i aE BALLON, WASH 32 种 
“eer tec. 
i SLL We JE A RAE 
， 满 了 感情 ， 对 消费 者 来 说 它 不 仅仅 是 一 种 食品 ， 更 是 澳洲 民族 的 一 种 象 
As 此外， 语义 分 析 电 显示 出 消 绵 者 普 这 关心 的 3. 个 超 势 : 健康 ER 
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创造 了 该 产品 的 历史 新 高 纪录 。 最 令 卡 夫 食 品 相关 人 员 兴 奋 的 是 ， 他 们 
终于 成 功 让 澳洲 妈妈 们 一 次 购买 2 ETT ST! 

利用 网 络 内 容 成 功 贴近 消费 者 的 还 有 罗 森 (LAWSON ) 连锁 便利 商 
店 。 罗 森 是 日 本 第 二 大 便利 商店 , 在 日 本 的 规模 仅 次 于 7-Eleven， 店 数 超 
过 一 万 家 ; 而 在 中 国 的 上 海 、 重 庆 和 大 连 等 城市 也 拥有 将 近 400 家 超 商 。 
除了 店 数 众多 之 外 ， 出 售 的 货品 也 很 多 元 ， 包 括 杂 志 、 漫 画 、 饮 品 、 药 
物 、 零 食 及 便当 等 。 

由 于 业务 范围 广大 ， 加 上 消费 者 对 便利 商店 的 忠诚 度 不 高 ， 以 及 各 
地 区 消费 者 的 品味 不 同 ， 罗 森 一 直 希 望 借 由 一 个 可 以 实时 挖掘 文本 数据 
的 工具 ， 收 集 客户 在 社交 网 站 上 的 意见 以 及 其 他 在 线 评论 ， 以 协助 总 部 
进行 产品 开发 和 服务 改进 。 之 前 ， 罗 森 使 用 的 数据 分 析 系 统 以 “关键 词 ” 
为 搜索 目标 ， 但 是 无 法 以 分 析 历 史 数据 来 识别 新 兴 偏 好 ， 而 且 因为 不 能 
自动 搜索 ， 最 后 还 是 需要 手动 改变 关键 词 和 记录 结果 ， 很 难 将 发 帖 过 程 
累积 成 可 用 的 数据 。 

在 旧 系统 无 法 符合 总 公司 的 需求 下 ， 罗 森 转 而 以 IBM 的 内 容 分 析 软 
件 来 自动 收集 、 累 积 和 分 析 不 同 社交 媒体 和 网 站 讨论 区 的 大 量 数据 ， 并 
将 IT 管理 架构 的 流程 集成 起 来 ， 建 立 一 个 从 信息 处 理 引擎 到 所 有 商店 信 
息 系统 的 单一 控制 面板 。 

这 套 系统 使 用 了 自然 语言 技术 ， 可 针对 包含 英文 、 日 文 、 中 文 等 11 种 
语言 的 非 结构 化 和 结构 化 数据 进行 分 析 ， 并 且 可 在 同一 时 间 内 自动 收集 
超过 1000 万 个 网 络 帖子 ， 自 动 分 析 结果 产生 后 ， 系 统 还 会 显示 警报 提要 。 
例如 ， 系 统 发 现 网 络 上 客户 抱怨 巧克力 奶油 冻 不 甜 的 频率 增加 ， 就 会 自 
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动 开始 收集 一 系列 有 关于 “巧克力 奶油 冻 的 味道 "， 或 是 
“不 喜欢 这 种 巧克力 ”等 上 下 文 义 相关 的 评论 和 帖子 ， 并 将 
结果 显示 在 每 一 部 终端 计算 机 的 企业 仪表 板 上 ， 以 帮助 总 
部 迅速 采取 行动 。 

例如 ， 罗 森 日 前 针对 年 轻 女 性 推出 一 款 低热 量 新 餐 盒 ， 
包含 一 碗 米饭 和 丰富 的 鸡肉 、 鸡 蛋 、 蔬 菜 ， 但 是 销售 却 不 
如 预期 。 经 过 内 容 分 析 后 发 现 ， 二 三 十 岁 的 女性 喜欢 这 个 
餐 盒 的 味道 ， 却 不 喜欢 新 产品 的 包装 。 该 公司 更 新 了 包装 
后 ,果然 产品 销售 也 跟着 上 升 。 

此 外 ， 这 套 解决 方案 也 可 以 借 由 各 类 食品 的 保鲜 期 ， 
监测 产品 新 鲜 度 和 浪费 的 情况 ， 让 店 经 理 可 据 此 控制 商品 
库存 量 和 鲜 食 进货 量 。 实 行 之 后 罗 森 2011 上 半年 度 营 收 比 
前 一 年 同期 增加 了 0.5%， 当 年 度 合并 营利 也 打破 了 该 公司 
历年 纪录 ， 预 计 2015 年 公司 税 前 营 收 ， 将 因此 较 2011 年 
大 幅 增 长 60%。 

从 上 述 案 例 中 ， 我们 可 以 知道 ,现在 的 消费 者 期 望 的 
是 : better products ( 有 更 好 的 产品 来 符合 他 们 的 需求 )、less 
time ( 可 以 花 更 少 的 时 间 去 寻找 )、right price ( 价格 合理 的 
好 产品 )。 而 在 你 身 处 的 产业 中 ， 该 怎么 利用 大 数据 分 析 ， 
为 消费 者 提供 更 好 的 质量 、 更 快 的 速度 和 更 经 济 的 价格 
呢 ? 以 其 他 零售 企业 可 以 得 到 的 效益 来 看 ， 这 绝对 值得 你 
花 时 间 好 好 思考 。 
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Q 内 容 分 析 软体 的 
基础 架构 


人 @ 层面 分 析 ( Facet analysis } 
列 出 包括 经 过 频率 、 相 关 
性 和 名 称 等 条 件 挑选 的 关 
键 词 。 

© 时 间 序 列 分 析 ({ Time-series 
analysis )， 获 取 特定 数据 在 
指定 时 间 内 发 生 率 的 变化 。 

@ 趋势 分 析 ( Trend analysis ) 
自动 侦 测 关键 词 在 一 个 时 
间 序 列 内 频率 的 显著 增加 
或 减少 。 

OR 差分 析 ( Deviation 
analysis )， 比 较 和 自动 检 
测 关键 词 在 同一 层面 、 同 

对 间 范 围 内 ， 频 率 的 显 
著 增加 或 减少 。 

@W & 4 tf ( Facet pair 
analysis )， 自 动 侦 测 两 个 
任意 的 层面 关键 鹿 之 间 的 
关联 性 。 

全 连接 分 析 | Connection 
analysis ): 将 同一 网 络 上 、 
两 个 不 同 层面 的 关联 性 可 
视 化 。 

© 企业 仪表 板 ( Dashboard ) 
在 同一 个 屏幕 上 显示 多 个 
分 析 图 表 。 











于 美国 ， 抑 或 是 许多 医疗 系统 较为 完善 的 国家 或 地 区 来 说 ， 逐 

年 增加 的 医疗 成 本 已 经 为 疲弱 的 整体 经 济 带 来 很 大 的 负担 。 以 
美国 为 例 ， 随 着 老龄 人 口 增多 ， 医 疗 护理 的 从 业 人 员 势 必 也 要 跟着 增加 ， 
甚至 药物 和 仪器 设备 的 需求 也 会 变 多 ， 因 此 根据 MGI 估计 ,未 来 20 年 
间 ， 医 疗 业 成 本 将 会 以 每 年 5% 的 速度 逐步 上 升 。 

应 对 成 本 增加 , 收费 也 将 会 越 来 越 贵 。 目 前 美国 民众 每 人 每 年 在 医 
疗 护理 上 面 花 的 钱 大 约 是 2500 美元 ， 总体 金额 高 达 约 7500 亿美 元 , 贵 
到 生 不 起 病 已 成 为 民众 最 诉 病 的 社会 问题 。 如 果 情 况 无 法 改善 ，MGI 估 
计 未 来 10 年 美国 民众 每 年 医疗 花费 的 增长 率 ， 将 超过 GDP 增长 率 大 
约 2%。 

如 何 提高 医疗 业 的 效率 ， 减 轻 逐 年 增加 的 成 本 压力 ， 为 民众 提供 
合理 的 医疗 质量 ? 目前 已 有 医疗 机 构 开始 借助 新 科技 收集 数据 以 改 
善 营运 。 例 如 美国 的 退伍 军人 事务 部 (The Department of Veterans 
Affairs ) 就 成 功利 用 电子 病历 、 医 疗 信息 技术 以 及 远程 病人 监测 技术 ， 
使 其 在 病人 护理 、 药 物 处 方 和 临床 治疗 上 的 效果 都 较 私 人 机 构 为 佳 ; 
英国 健康 暨 临床 医学 研究 院 ( National Institute for Health and Clinical 
Excellence ) 率先 使 用 大 型 临床 数据 ， 探 讨 新 药物 和 昂贵 治疗 方法 的 
成 本 和 治疗 效率 , 并 以 此 做 为 与 药 厂 协商 价格 的 主要 依据 ; 意大利 药 
品 管理 局 ( The Italian Medicines Agency ) 也 正 仿效 这 个 做 法 , 收集 并 
分 析 使 用 昂贵 新 药 的 临床 数据 ， 以 评估 新 药物 进入 医疗 市 场 的 价格 和 
条 件 。 

然而 ， 绝 大 多 数 的 医疗 机 构 ， 借 由 新 科技 收集 数据 和 改善 营运 的 
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程度 远 落后 于 其 他 行业 。 医 疗 业 所 需要 的 4 大 数据 源 包括 临床 数据 
( Clinical data )、 药 物 和 医疗 用 品 研发 数据 ( Pharmaceutical and medical 
products R&D data)、 付 费 者 作业 和 成 本 数据 ( Payor activity and cost 
data )、 患 者 行为 和 情绪 数据 (Patient behavior and sentiment data); 其 
电 只 有 药物 和 医疗 用 品 研 发 相关 数据 目前 数字 化 程度 最 高 ， 未 来 可 望 
与 患者 行为 和 情绪 数据 ， 或 是 个 人 基因 数据 库 结合 ,帮助 研发 出 更 好 
的 新 药 。 

至 于 临床 数据 的 部 分 ， 美 国 至 少 还 有 30% 的 病历 、 实 验 和 手术 报告 
等 临床 数据 尚未 电子 化 。 因 此 ，2009 年 提出 的 美国 复苏 与 再 投资 法 案 - 
( American Recovery and Reinvestment Act ) 中 ， 就 提供 了 2000 亿美 金 的 
奖励 基金 ， 希 望 在 5 年 内 帮助 所 有 诊所 和 医院 全 面 将 病历 和 临床 数据 数 
字 化 ， 以 利 未 来 的 数据 收集 和 分 析 应 用 。 另 外 ， 由 于 付费 者 作业 和 成 本 
数据 分 散在 政府 、 保 险 公 司 、 医 疗 院 所 、 药 商 等 各 个 单位 的 手中 , 不仅 
没有 统一 的 标准 格式 ， 而 且 因 相关 数据 在 企业 端 大 多 被 视 为 商业 机 密 ， 
所 以 也 无 法 集结 。 

不 过 ,医疗 业 若 能 增加 IT 投资 和 数据 收集 的 能 力 ， 做 好 保护 隐私 的 
机 制 ， 并 整合 政府 、 医 疗 院 所 和 企业 的 数据 源 ， 长 期 来 看 ，MGI 估计 这 
样 做 可 为 整体 医疗 业 带 来 每 年 超过 3000 亿美 元 的 新 价值 ， 减 少 大 约 8% 
的 国家 医疗 保健 支出 ( 以 2010 年 为 基准 )， 并 且 增 加 0.7% 的 生产 力 ( 见 
图 6-1)。 而 目前 医疗 业 在 数据 分 析 的 实际 应 用 上 ， 已 经 运用 了 实时 监测 
并 分 析 大 量 的 仪器 数据 ， 帮 助 医疗 机 构 和 学 术 单 位 提高 “临床 试验 ”和 
“医学 研发 ”的 成 效 。 同 时 ， 也 有 医疗 机 构 借 由 “电子 病历 ”提供 以 患者 
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为 中 心 的 个 性 化 疗程 建议 ， 或 是 靠 “ 电 子 病历 ”整合 分 散 的 数据 源 ， 大 
幅 改善 了 营运 绩效 ， 让 我 们 的 医疗 体系 可 以 帮助 更 多 人 ， 也 让 所 有 人 活 
得 更 健康 、 没 有 负担 。 





-1 大 数据 分 析 对 医疗 业 的 价值 


预计 运用 已 知 数据 分 析 方法 ， 长 期 可 创造 超过 3000 亿美 元 的 价值 ， 
且 可 能 节省 超过 2000 亿美 元 的 国家 医疗 保健 支出 


运用 大 数据 的 潜在 价值 E 直接 减少 国家 医疗 保健 支出 
10 亿 美元 /年 对 国家 医疗 保健 支出 的 影响 不 明 
数据 分 析 应 用 


研究 研发 运用 预测 模型 决定 研发 数据 的 配置 、 临 床 试验 设计 


和 个 性 化 的 医疗 


临床 比较 效益 研究 《CER)， 临床 决策 支持 系统 
临床 资料 透明 化 


临床 应 用 


会 计 / 定价 运用 更 精确 的 演算 法 来 发 现 舞 痊 : 药物 定价 基于 
疗效 





公共 卫生 公共 卫生 监控 和 反应 系统 
统合 患者 数据 以 提供 数据 组 和 更 深入 的 观察 ， 在 
DAA 线 平台 和 社区 
总 潜在 价值 
GE) 


注 : 不 包含 最 初 的 IT 投资 〈 约 1200 ~ 2000 亿美 元 ) 以 及 营运 成 本 《〈 约 200 亿美 元 /年 ) 
数据 来 源 : 专家 访问 、 报 章 与 文献 研究 、 麦 肯 锡 全 球 研究 院 
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6-2 医疗 业 可 应 用 大 数据 的 范畴 


1. 比较 效果 研究 (Comparative effectiveness research) 
pine 2. 临床 决策 支持 系统 Clinical decision support systems) 
‘Clinical operations en patant ontong 

2 4. 患者 基本 数据 和 主诉 高 级 分 析 (Advanced analytics) 
5. 加 强 医学 数据 透明 度 (Medical data transparency) 


1. 自动 化 系统 (Automated systems) 

2. 健康 经 济 学 Health Economics) 

3. 实证 研究 (Outcomes Research) 

4. 以 绩效 为 基础 的 定价 规划 (Performance-based pricing 
plans) 


1. 预测 模型 (Predictive modeling) 

2. 利用 统计 工具 改善 临床 试验 设计 (Clinical trial design) 
3. 分 析 临 床 试验 数据 (Clinical trial data) 

4. FALE (Personalized medicine) 

5. PARMAR (Disease patterns) 


1. 整合 病历 和 医疗 求 偿 记 录 (Claims datasets) 
2. 医疗 网 络 平台 和 杜 区 Online platforms and 
communities) 





KGB: RBS ERR BE 


临床 试验 


所 谓 的 早产 儿 是 指 怀孕 不 到 37 周 就 提早 出 世 的 宝宝 。 这 些 提早 降临 
人 世 的 小 仙子 ， 如 果 出 生 后 体重 不 到 1500 克 ， 很 可 能 会 因为 免疫 系统 尚 
未 发 育 完全 而 受到 感染 ,一 旦 感染 之 后 就 很 容易 引发 呼吸 衰竭 、 肺 出 血 
及 败血症 。 

不 过 ， 加 拿 大 多 伦 多 市 立 儿 童 医院 里 的 早产 儿 ， 却 可 以 睡 得 特别 安 
详 ， 因 为 他 们 是 有 数据 资料 保护 的 “Data Baby”( 数据 宝贝 )。 


a 


随 着 医疗 设备 的 发 展 ， 利 用 医疗 监测 仪器 监测 患者 的 生命 体征 
(Vital signs )， 如 血压 、 心 跳 和 体温 等 ， 已 经 是 非常 普遍 的 事 了 。 通 常 这 
些 仪器 还 具有 和 警报 功能 ， 一 旦 生理 性 的 数据 数值 超出 正常 范围 时 就 会 发 
出 警示 ， 医护 人 员 就 会 采取 应 对 行动 。 但 是 ， 即 使 医术 再 精湛 、 经 验 再 
丰富 的 医护 人 员 ， 可 能 也 无 法 准确 地 察觉 这 些 异常 的 发 生 时 间 和 严重 性 ， 
尤其 当 发 生 在 脆弱 的 早产 儿 身 上 时 。 

根据 美国 维 吉 尼 亚 大 学 追踪 以 往 的 数据 显示 ， 新 生 儿 受到 感染 初期 
的 12 一 24 小 时 ， 因 为 脉搏 和 心跳 几乎 都 在 可 接受 的 范围 内 ， 因 此 医护 人 
员 很 难 从 生命 体征 数据 的 改变 中 察觉 ; 等 到 警示 灯 响起 ， 常 常 为 时 已 晚 。 

连续 监测 和 记录 这 些 生理 性 数据 ， 可 以 观察 出 新 生 儿 是 否 遭 受 感 染 
的 早期 征兆 ， 但 是 这 些 数据 资料 量 实在 太 大 了 ! 估计 这 些 监测 设备 每 一 
秒 钟 会 产生 1000 个 读数 。 以 往 是 每 30 一 60 分 钟 由 医护 人 员 归 纳 出 一 个 
数据 做 为 记录 ， 然 后 储存 72 小 时 。 如 果 要 把 这 些 读数 统统 记录 起 来 ， 根 
本 是 不 可 能 的 事 。 

但 是 这 项 不 可 能 的 任务 ， 并 没有 吓 跑 安大略 省 理 王 学 院 和 IBM。 他 
们 使 用 来 自 华 生 研究 中 心 的 最 新 技术 ， 利 用 流 计 算 平 台 来 支持 大 量 数据 
的 收集 和 分 析 ， 一 天 24 小 时 不 间断 地 收集 和 记录 着 包括 早产 儿 的 体温 、 
心跳 、 血 氧 亿 和 浓度 和 血压 等 电子 监测 仪器 产生 的 大 量 读数 ， 以 及 周遭 
环境 如 温度 、 湿 度 等 相关 数据 。 

在 保护 病人 隐私 安全 考虑 下 ， 这 些 数据 会 直接 传送 到 安大略 省 理工 
学 院 研究 中 心 和 -IBM 华 生 研究 中 心 ; 系统 会 分 析 和 研究 哪些 因素 的 交互 
作用 会 造成 感染 ， 其 至 哪 几 床 的 新 生 儿 因为 符合 条 件 较 多 ， 可 能 出 现 疾 
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病 或 感染 的 风险 较 大 。 之 后 ， 系 统 再 将 分 析 结 果 提 供给 医护 人 员 比 较 判 
读 。 这 些 动 作 都 在 数秒 内 完成 。 借 由 这 项 计划 ， 儿 童 病房 里 的 医护 人 员 
已 经 可 以 提前 18 一 24 小 时 ， 预 防 新 生 儿 败血症 的 发 生 。 

目前 ， 这 套 结合 医疗 仪器 和 流 计算 的 系统 ， 还 扩大 应 用 到 连结 远程 
传感器 和 无 线 通 信 ， 可 以 协助 系统 监测 病人 在 医院 外 的 情况 。 例 如 白 
血 病 儿童 不 管 是 在 家 里 、 上 学 、 或 是 参加 体育 活动 ， 系 统 都 可 以 通过 
和 其 身体 连结 的 传感器 ， 提 早 得 知 他 们 碰撞 、 受 伤 等 可 能 导致 生命 危 
险 的 情况 。 

另外 ,加 州 太平 洋 医 疗 中 心 ( California Pacific Medical Center ) 也 利 
用 大 数据 分 析 改 善 了 心脏 病 的 治疗 效果 。 这 个 隶属 萨 特 医疗 集团 (Sutter 
Health ) 的 学 术 医 疗 中心 ， 提 供 最 专业 和 先进 的 治疗 与 服务 ， 而 心脏 病 研 
究 是 这 里 的 重要 工作 之 一 。 这 个 医疗 中 心 利用 数据 分 析 系 统 ， 将 本 地 医 
疗 中 心 的 临床 试验 数据 、 整 个 集团 的 患者 数据 库 以 及 其 他 医疗 机 构 的 心 
脏 病 医学 图 像 等 不 同 格式 的 巨 量 数据 ， 整 合成 单一 平台 。 它 还 使 用 分 析 
软件 开发 出 准确 的 心脏 病 风险 预测 模型 ， 建 立 并 发 症 兆 风险 的 预测 诊疗 
模型 ， 并 让 这 个 诊疗 模型 成 为 看 诊 的 标准 化 流程 之 一 ， 让 心脏 患者 在 紧 
急救 助 上 所 需 的 时 间 仅 为 58 分钟 ， 低 于 国际 标准 的 90 分 钟 ; 而 转 诊治 
疗 的 时 间 也 由 3 年 前 的 180 分 钟 缩短 到 79 分 钟 。 


医学 研发 


位 于 水 牛 城 的 纽约 州立 大 学 (SUNY ) 是 一 个 领先 全 球 的 多 发 性 硬化 


13 





JE (MS ) 研究 中 心 。MS 是 一 种 具 破 坏 性 的 、 慢 性 的 神经 系统 疾病 ， 影 
响 全 球 近 百 万 人 。 这 种 疾病 会 使 人 的 大 脑 稍 俘 发 炎 并 产生 神经 病 ， 导 
致 患者 可 能 会 出 现行 动 不 便 ， 视 力 受 损 ， 疼 痛 等 症状 。 

MS 的 病因 是 很 复杂 的 , 没有 一 个 单一 基因 是 可 能 的 致 病源 。 因此 自 
2007 年 以 来 ，SUNY 就 一 直 希 望 从 扫描 MS 患者 的 基因 组 的 变化 来 开发 
新 的 治疗 方法 ， 通 过 从 原本 成 千 上 万 的 基因 序列 的 变异 ( SNP' ) 获得 单 
一 样品 , 研究 基因 产物 (Gene products， 例 如 蛋白 质 ) 和 其 他 基因 产物 及 
环境 因素 进行 的 交互 作用 。 

研究 人 员 的 想法 是 以 多 个 SNP 变异 点 结合 不 同 的 环境 变 因 ， 并 使 
用 一 种 被 称 之 为 “AMBIENCE” 的 算法 ， 来 检测 线性 和 非 线 性 两 种 数 
据 资料 中 的 相关 性 ， 以 识别 这 些 交互 作用 之 间 的 关系 。 但 是 这 个 想法 
就 像 是 在 大 海里 捞 针 ， 因 为 环境 变 因 包 括 像 是 实验 对 象 曝晒 阳光 的 时 
间 长 短 和 维生素 D 产生 的 量 、 艾 伯 斯 坦 巴尔 病毒 (Epstein-Barr virus, 
一 种 常见 的 泡 疙 病毒 ) 感染 的 情况 、 甚 至 是 吸烟 都 有 可 能 影响 研究 结 
果 。 况且 人 类 的 基因 组 由 23 对 染色 体 组 成 ， 其 中 包含 约 30 亿 个 DNA 
碱 基 对 ; 这 项 因 变 量 和 应 变量 数量 都 大 到 吓人 的 工作 ， 必 须 靠 建 构 一 
套 计 算 量 可 以 高 达 10 的 18 次 方 ( Quintillions，18 个 0 ) 的 高 等 分 析 
模型 才能 解决 。 

在 没有 系统 可 以 处 理 这 么 庞大 的 数据 量 之 下 ， 以 往 该 研究 小 组 都 是 


， 此 处 指 的 是 单 核 苷 酸 多 态 性 ( Single Nucleotide Polymorphisms )， 也 就 是 人 类 基因 组 中 ， 
不 同 个 体 间 基因 序列 产生 的 主要 变异 , 常用 于 研究 家 族 间 的 遗传 现象 及 估 测 肉 患 疾病 的 难 
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以 寻找 “最 少数 量 ”的 SNP、 环 境 和 形态 ( Phenotypic ) 的 变量 组 合 进行 
研究 ， 直 到 他 们 和 IBM 合作 ， 建 立 了 一 套 搭配 软 硬 件 的 数据 分 析 系 统 ， 
以 往 平均 需要 27.2 小 时 的 工作 ， 缩 短 到 现在 只 要 11.7 分 钟 即 可 完成 。 而 
且 这 套 系统 不 仅 大 大 简化 和 加 快 了 复杂 的 分 析 过 程 ， 而 且 还 提供 了 不 同 
类 型 的 变量 值 ， 例 如 分 类 变量 、 分 立 卜 瓦 松 变量 或 连续 常态 分 布 变量 等 。 
过 去 ， 只 要 在 研究 中 增加 一 个 新 的 变量 值 ， 研 究 团队 就 必须 重新 编写 整 
个 算法 ， 而 现在 却 只 要 按 几 个 按键 就 可 以 达成 。 

大 数据 分 析 系统 除了 应 用 在 MS 研究 以 外 ,全 球 估计 有 超过 3300 万 
人 感染 、 至 今 还 没有 方法 可 以 完全 治愈 的 艾滋 病 ， 以 及 罕见 的 遗传 性 骨 
疾病 ， 都 已 经 开始 利用 这 个 新 技术 进行 大 型 的 医学 研究 。 科 学 家 们 不 用 
再 花 大 把 时 间 去 思考 如 何 编写 算法 ， 而 是 可 以 把 精力 专注 在 医学 研究 上 ， 
来 促进 全 世界 人 类 的 健康 。 


电子 病历 


1933 年 创建 的 广东 省 中 医院 是 中 国 历史 最 悠久 的 中 医院 之 一 ， 更 是 
中 国 南部 最 大 的 医院 系统 ， 目 前 旗下 拥有 5 间 医 院 ， 院 内 有 超过 3000 张 
病床 ， 每 年 门诊 量 超过 600 万 人 次 。 这 家 一 日 门诊 量 就 能 破 万 的 医疗 机 
构 ， 之 所 以 备 受 推崇 ， 是 在 于 它 独特 的 治疗 技术 ， 广 东 中 医院 主要 是 以 
结合 中 药 和 西药 ， 双 管 齐 下 的 方式 给 予 患者 治疗 。 

不 过 ,也 由 于 服务 的 患者 众多 ，2008 年 以 前 ， 包 括 病历 或 是 临床 试 
验 等 数据 都 由 各 家 分 院 的 各 个 单位 自行 保存 ; 也 因为 独立 记录 管理 ， 这 





些 医疗 信息 无 法 在 部 门 或 分 院 间 共享 。 为 了 提高 服务 水 平 、 打 造 一 个 
以 患者 信息 为 中 心 的 电子 病历 系统 ， 广 东 省 中 医院 需要 将 以 前 分 散在 
多 个 系统 中 的 医疗 数据 ， 整 合成 为 一 个 标准 化 规格 并 可 以 进行 分 享 的 
数据 中 心 。 

广东 省 中 医院 和 IBM 携手 合作 了 一 套 “ 临 床 记录 分 析 和 共享 ” 
(CHAS) 系统 ， 可 以 把 这 些 横 跨 中 西医 的 数据 都 整合 成 以 单一 患者 为 中 
心 的 标准 电子 病历 ( EMR )。 这 套 系统 不 仅 把 传统 中 医 上 的 理念 和 智慧 ， 
转变 成 可 以 严格 、 高 效 进行 测量 的 标准 化 数据 之 外 ， 也 使 用 语义 分 析 技 
术 ， 结 合 了 中 西医 两 种 智慧 ， 使 得 不 管 是 哪 一 种 格式 或 语言 的 中 西医 学 
术 名 词 都 有 详细 解释 ， 让 医护 人 员 可 依 此 向 患者 说 明 。 

之 后 ， 广 东 省 中 医院 和 IBM 继续 合作 建立 “医疗 数据 库 分 析 和 共享 
CHIWAS ) 系统 ， 储 存 并 整合 匿名 病人 的 数据 ， 其 中 包含 年 龄 、 性别 、 是 
否 患 有 如 心脏 病 或 糖尿 病 等 其 他 病症 的 详尽 数据 。 系 统 并 在 诊疗 过 程 中 
帮助 医生 取得 、 过 滤 并 整合 其 他 相关 病人 的 数据 和 类 似 的 医疗 行为 ， 协 
助 医生 为 病人 量 身 订 制 个 性 化 的 治疗 方案 。 

此 系统 也 被 运用 在 慢性 肾脏 病 的 治疗 。 目 前 ， 引 发 慢性 肾脏 病 的 最 
主要 原因 之 一 是 高 血压 和 糖尿 病 等 文明 病 。 根 据 统计 ， 约 有 4 成 的 糖尿 
患者 会 成 为 慢性 肾脏 患者 ;美国 成 年 人 中 就 有 17% 崔 患 慢 性 肾脏 病 ， 而 
广东 中 医院 每 年 也 需要 治疗 高 达 一 万 名 的 慢性 肾脏 患者 。 

然而 ， 这 一 类 的 患者 虽然 人 数 众 多 ， 但 是 着 眼 于 该 疾病 的 西药 疗法 
十 分 少见 。 广 东 中 医院 针对 上 千 份 的 匿名 电子 病历 进行 搜集 并 分 析 ， 找 
出 中 西医 对 于 慢性 疾病 治疗 的 关键 信息 ， 并 从 中 归纳 出 不 同 群体 对 慢性 
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肾脏 病 的 发 病 规律 ， 目 前 已 具有 相当 的 疗效 。 现 在 ， 广 东 省 中 医院 不 仅 
可 以 比 以 往 多 治疗 25% 的 病人 ， 并 且 获 得 多 出 10 倍 的 临床 信息 ， 往 实证 
医学 和 更 具 成 本 效益 的 医疗 发 展 又 向 前 跨 了 一 大 步 - 


改善 营运 


Premier Healthcare Alliance 是 一 个 国家 级 的 医疗 采购 集团 , 与 美国 的 
全 国联 邦 医疗 保险 ( Centers for Medicare & Medicaid Services ) 和 英国 国 
民 健 康 制 度 (National Health Service ) 都 有 合作 。 目 前 该 医疗 联盟 在 全 美 
拥有 超过 2600 家 会 员 医院 和 86 000 家 其 他 医疗 机 构 , 希望 借 由 协作 的 力 
量 提高 会 员 医院 的 运作 效率 及 成 本 效益 ， 同 时 帮助 他 们 适应 责任 医疗 
(accountable care ) 和 预计 2014 年 全 面 实施 的 新 型 保健 支付 及 求 偿 
(delivery and reimbursement ) 等 医疗 改革 。 

由 于 会 员 涵 盖 面 极 广 ，Premier 的 临床 数据 、 实 证 研究 和 财务 营运 等 
数据 也 非常 丰富 。 但 是 他 们 却 发 现 ， 现 有 的 IT 基础 设施 无 法 应 对 即将 实 
施 的 新 型 医疗 保健 制度 ， 于 是 他 们 花 了 一 年 多 建立 许多 数据 储存 系统 。 
但 最 后 却 发 现 这 么 做 的 结果 是 ， 会 员 根本 无 法 串 连 不 同 来 源 的 数据 ， 并 
且 因 这 个 系统 缺乏 扩充 性 ， 也 无 法 支持 持续 大 量 增生 的 数据 量 。 

要 怎么 顾及 这 些 数据 的 隐私 和 安全 ， 甚 至 在 机 密 文件 上 可 以 防止 有 
人 越权 存 取 ， 又 能 够 让 成 千 上 万 的 组 织 会 员 ， 可 以 共享 医学 数据 和 研究 
成 果 ? Premier 的 构想 是 为 每 一 个 医疗 机 构 的 数据 , 设置 独立 的 安全 保护 ， 
但 同时 又 使 之 能 做 某 个 限度 的 分 享 。 利 用 IBM 的 数据 分 析 系 统 和 社交 网 
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络 平台 ， 会 员 们 不 仅 可 以 利用 社交 入 口 网 站 得 到 各 种 临床 、 业 务 和 规范 
等 相关 数据 ， 还 可 以 借 由 其 他 大 型 医院 或 研究 单位 的 临床 结果 ， 改 善 病 
人 的 治疗 状况 。 

医院 经 营 者 可 以 利用 这 个 系统 比较 国家 制定 的 标准 和 自己 的 营运 效 
益 ， 以 帮助 他 们 在 医疗 保健 服务 和 行政 成 本 上 提高 资源 利用 率 、 减 少 浪 
费 。 而 医护 人 员 则 是 能 够 从 大 量 病历 集结 而 成 的 数据 库 中 ， 找 到 最 适 的 
治疗 方法 。 例 如 ， 若 一 名 糖尿 患者 受 了 外 伤 而 进入 医院 ， 系 统 会 将 此 患 
者 的 所 有 数据 整合 在 一 起 ， 使 这 些 数据 规格 化 、 基 准 化 ， 并 且 比 对 数据 
库 中 所 有 类 似 情况 的 病历 ， 为 医生 或 药剂 师 提 供 抗 凝 血 药 物 的 适当 剂量 。 

同时 ， 为 了 让 非 会 员 的 医疗 机 构 也 可 以 改善 营运 、 提 高 效益 ， 
Premier 也 和 IBM 合作 建立 一 个 包括 临床 试验 、 操 作 过 程 和 实证 结果 的 
数据 模型 做 为 范本 。 这 个 被 称 为 “医疗 服务 提供 商 数 据 仓库 ”( TBM 
Healthcare Provider Data Warehouse ) 的 系统 , 可 以 帮助 所 有 医疗 机 构 收集 
和 分 析 准 确 和 实时 的 信息 ， 提 供 以 证 据 为 基础 、 以 患者 为 中 心 的 责任 医 
疗 服务 。 现 在 ， 从 入 院 、 出 院 和 转院 (ADT) 的 患者 数据 ， 到 如 制药 、 
微生物 学 和 实验 室 等 来 自 各 医院 、 各 部 门 的 信息 ， 都 会 被 发 送 到 核心 数 
据 库 中 ,以 每 秒 3000 TPS ( Transactions per second， 意 指 每 秒 可 处 理 的 事 
务 数 ) 的 速度 处 理 ， 不 仅 让 研究 成 果 和 临床 诊疗 可 以 更 快 、 更 容易 地 结 
合 ， 同 时 也 降低 了 营运 成 本 。 

这 个 方案 实施 后 ， 估 计 已 为 Premier 旗下 会 员 减少 了 28.5 亿美 元 的 
医疗 开支 ， 并 挽救 了 24 800 人 的 生命 。 目 前 ，Premier 已 计划 ,利用 新 科 
技 和 新 思维 ， 设 计 更 多 的 新 应 用 程序 以 支持 医疗 改革 和 其 他 立法 要 求 ， 
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因为 它 知 道 ， 这 样 的 愿景 不 是 在 明天 ， 或 是 三 五 年 后 的 未 来 ， 而 是 现在 
就 要 开始 ! 

现在 中 国 台湾 地 区 正面 临 着 医疗 保健 巨额 亏损 。 根 据 台湾 省 的 最 新 统 
it, Al 10 年 前 相 比 , 台湾 人 在 教育 、 休 闲 文化 、 衣 着 鞋 袜 的 支出 减少 了 ， 
医疗 保健 的 支出 则 是 明显 增加 了 3.2%。 这 和 中 国人 均 寿命 延长 以 及 人 口 
老龄 化 有 关 。 同 时 ， 人 台湾 医疗 机 构 的 护士 荒 以 及 内 、 外 、 妇 、 儿 与 急诊 
科 医 师 严重 出 走 的 问题 也 越 演 越 烈 ， 看 了 上 述 案例 ， 你 是 否 心 有 所 感 ? 
医疗 机 构 如 何 运 用 新 科技 、 新 技术 增加 生产 力 和 降低 成 本 ， 或 许 这 才 是 
当前 医疗 体系 所 需要 的 处 方 。 
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pla 善 公共 行政 效率 是 许多 国家 政府 正在 面临 的 巨大 压力 ， 尤 其 是 
在 这 几 年 全 球 经 济 衰退 的 情况 下 ， 政 府 一 方面 必须 维持 甚至 增 
加 公共 服务 ， 另 一 方面 却 得 面 对 因 为 财政 赤字 所 带 来 的 预算 限制 。 

尤其 是 在 欧洲 ， 估 计 到 2025 年 ， 欧 洲 国家 60 岁 以 上 的 人 口 ， 将 占 
总 人 口 数 的 30%。 也 就 是 说 ， 届 时 每 3 个 人 当中 就 有 一 位 是 60 岁 以 上 的 
老人 。 这 些 老龄 人 口 的 社会 福利 、 健 康 问题 和 退休 金 ， 所 延伸 出 来 的 是 
对 医药 和 看 护 的 庞大 需求 ， 需 要 大 量 的 人 力 资源 ; 结果 人 数 不 断 增加 的 
公务 员 ， 又 衍 伸 出 男 一 个 加 重 财政 负担 以 及 造成 行政 效率 低落 的 原因 。 

根据 欧盟 统计 ， 欧 洲 各 国政 府 公 部 门 的 年 度 预算 大 概 占 GDP 的 一 
半 ， 其 中 的 20% 用 于 转移 支付 (transfer payment )。 所 谓 移 转 支付 是 指 政 
府 不 是 为 了 购买 商品 和 劳务 ， 而 是 无 偿 支 付 给 个 人 或 下 级 单位 的 费用 ; 
养老 金 、 失 业 救济 金 、 退 伍 军人 补助 金 、 农 产品 价格 补贴 、 公 债 利息 等 
支出 都 包含 在 内 。 剩 下 的 预算 则 有 30% 花 费 在 行政 单位 上 ， 约 占 整 年 度 
GDP 的 10%。 

在 无 法 减少 转移 支付 费用 的 情况 下 ， 为 了 走出 财政 困境 ， 各 国政 府 
开始 积极 节约 行政 单位 的 运作 成 本 ， 提 升 其 效率 。 大 数据 分 析 是 其 中 最 
有 效 的 方式 之 一 ， 几 乎 所 有 国家 都 能 因此 受 惠 。 然 而 目前 却 不 是 每 一 个 
国家 都 已 经 开始 进行 ， 其 原因 在 于 人 为 政策 的 干预 。 

虽然 ,政府 所 产生 的 数据 大 多 是 文本 和 数字 ， 而 且 有 90% 以 上 是 数 
字数 据 ， 但 是 这 并 不 代表 它 比 企业 或 个 人 的 数据 更 有 效率 地 被 运用 。 最 
主要 是 因为 各 单位 并 没有 一 致 化 的 标准 ， 且 碍 于 各 自 的 政策 、 规 范 , 无 
法 完全 共享 数据 。 所 以 ，A 单位 必须 用 传真 的 方式 递送 公文 ， 或 是 邮寄 
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一 张 光盘 数据 给 B 单位 的 情况 ， 到 现在 都 还 很 常见 。 数 据 缺乏 透明 度 的 
结果 ， 也 让 政府 部 门 难以 制定 促进 绩效 和 生产 力 的 指针 。 

所 幸 ， 有 越 来 越 多 的 政府 开始 采用 “开放 数据 ”( Open data) 的 原则 ， 
把 不 受 著作 权 、 专 利 权 , 以 及 其 他 管理 机 制 所 限制 ， 经 过 挑选 与 许可 的 原始 
数据 ， 开 放 给 社会 公众 ， 让 任何 人 都 可 以 自由 运用 。 英 国 的 Data.gov.uk 和 
西班牙 的 www.proyectoaporta.es 就 是 其 中 的 先锋 。 

这 两 个 国家 的 政府 已 经 有 了 共识 。 认 为 此 做 法 除了 让 全 民 可 以 监督 
政府 部 门 的 效率 之 外 ， 也 可 以 利用 数据 分 析 、 测 量 和 比较 不 同 单位 的 职 
能 ， 建 立 内 部 的 竞争 驱动 性 以 提高 生产 力 ， 甚 至 公务 人 员 也 可 以 利用 这 
种 机 制衡 量 供 货 商 的 表现 ， 以 减少 错误 和 舞弊 。MGI 估算 因此 将 可 节省 
高 达 30% 的 政府 采购 成 本 ， 甚 至 减少 3% 的 转移 支付 ， 因 为 转移 支付 中 错 
误 和 舞弊 的 金额 非常 高 。 

以 目前 最 需 节 约 成 本 的 欧盟 27 个 会 员 国 来 看 ,麦肯锡 全 球 研究 院 估 
计 借 由 大 数据 分 析 ，OECD 中 的 欧洲 国家 政府 可 减少 15% 一 20% 的 行政 成 
本 ， 并 在 未 来 10 年 间 每 年 增加 0.5% 的 生产 力 ， 换 算 成 量化 数值 每 年 约 为 
1500 亿 一 3000 亿 欧 元 ( 见 图 7-1 )。 此 外 ,大 数据 还 可 以 提供 一 系列 无 法 
量化 的 价值 ， 包 括 预 算 分 配 的 改善 、 更 高 质量 的 服务 、 加 强 对 公共 部 门 
的 问 责 制 (Accountability System )， 而 这 些 都 会 增强 民众 对 政府 的 信任 。 

除了 提升 公共 部 门 的 行政 效率 之 外 ， 各 国政 府 也 开始 将 数据 分 析 应 
用 在 协助 打击 和 预防 犯罪 、 解 决 城市 交通 拥塞 以 及 防治 污染 上 ， 和 希望 借 
由 更 新 的 技术 ， 取 代 更 多 的 人 力 ， 而 且 在 确保 民众 的 隐私 安全 之 下 ,发 
展 更 好 的 决策 、 建 立 更 健全 的 政府 。 
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7-1 欧盟 国 借 由 大 数据 分 析 锁 获得 的 潜在 效益 


OECD 欧洲 国家 (OECD-Europe) 公共 部 门 可 借 由 大 数据 分 析 创造 
1500 亿 到 3000 亿 欧元 〈 甚 至 更 多 ) 的 潜在 价值 


总 计数 cen X age X ee 











10 亿 欧 元 
Rn 行政 成 本 4000 20~25 15~20 
Bopp VERN 2500 7 1~3082)  30~40 
an 税收 5400 5-10ea  10~20 





注 : a 

1. 提高 行政 效率 带 来 的 价值 ， 基 数 不 包含 转移 支付 的 总 政府 支出 : MIRE AAI. 
基数 是 总 政府 转移 支付 ， 增 加 税收 带 来 的 价值 ， 基 数 是 税收 ， 

2. 包含 转移 支付 中 可 能 有 的 错误 舞 狂 及 其 预计 将 造成 的 损失 

3. 税收 部 分 ， 可 锁定 的 百分比 是 指 预 计 税 收 缺口 所 占 百分比 . 


数据 来 源 ， 国 际 货币 基金 ，OECD， 麦肯锡 全 球 研究 院 
提高 行政 效率 


Age UK 是 英国 最 大 和 最 知名 的 慈善 机 构 之 一 。 这 个 成 立 于 2009 年 
的 慈善 机 构 ， 专 门 关 注 老 年 人 的 权利 、 生 活 、 安 全 和 保健 等 议题 ， 每 年 
提 拨 7500 万 英镑 的 资金 防止 虐待 老人 ， 并 为 贫穷 或 有 需要 的 老年 人 提供 
医疗 保健 和 社会 服务 ， 每 一 年 的 受 援 人 数 超过 500 万 人 。 
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“间接 成 本 ”是 该 机 构 最 大 的 敌人 。 为 了 争取 慈善 捐款 ,他 们 必须 将 
预算 尽 可 能 有 效 地 放 在 营销 资源 的 使 用 上 ， 而 包括 邮寄 、 办 公 室 等 其 他 
间接 成 本 都 要 尽量 节省 精算 ， 因 为 他 们 花 在 这 些 支持 募捐 活动 运作 上 的 
成 本 越 少 ， 可 以 运用 的 捐款 就 越 多 。 

不 过 ，Age UK 不 管 怎么 节省 ， 庞 大 的 邮寄 费用 都 始终 无 法 下 降 。 以 
往 ，Age UK 会 针对 每 一 次 的 活动 ， 将 广告 邮件 寄 给 过 去 4 年 里 曾经 捐款 
的 所 有 捐助 者 。 他 们 虽然 想 减少 邮寄 广告 DM 的 费用 ， 但 是 却 不 想 冒 着 因 
为 省 钱 而 失去 可 能 得 到 高 额 捐助 的 风险 ， 所 以 不 管 是 捐 了 5 英镑 或 50 英 
镑 的 捐助 者 ， 全 都 收 到 了 上 邮件。 

Age UK 希望 着 眼 于 捐 了 50 英镑 的 高 额 捐助 者 ， 以 确保 大 部 分 的 筹 
款 收 入 ， 但 又 同时 想 减少 邮寄 费用 。 因 此 他 们 积极 寻找 一 套 可 以 纳入 更 
多 变量 的 解决 方案 ， 让 他 们 可 以 更 深入 地 了 解 每 一 个 支持 者 所 提供 的 捐 
款 ， 再 配合 个 人 的 邮寄 费用 进行 分 析 ， 以 列 出 最 具 效 益 的 邮寄 名 单 。 

这 个 想法 说 起 来 简单 ， 但 实行 起 来 并 不 容易 ， 因 为 对 Age UK 来 说 ， 
每 一 笔 捐 款 都 很 宝贵 ， 而 且 十 几 个 小 额 捐 助 者 和 一 个 大 额 捐助 者 ， 对 于 
邮寄 成 本 的 影响 到 底 怎么 计算 ? 如 何 才能 以 更 少 的 成 本 ， 吸 引 更 多 的 大 
额 捐助 者 ?最 后 他 们 采用 了 IBM 的 数据 分 析 系统 ， 针 对 每 一 个 捐赠 者 的 
单 次 捐赠 金额 、 捐 赠 的 频率 和 时 序 加 以 统计 分 析 。 

筛选 的 逻辑 是 依照 商业 上 的 “ 近 因 频率 的 货币 价值 ”( RFM ), 衡量 
顾客 的 3 种 特征 值 而 定 ， 包括 了 最 近 购 买 日 ( Recency )、 购 买 频率 
(Frequency ) 及 购买 金额 ( Monetary ) 首先 系统 将 现 有 的 百 万 名 捐助 者 ， 
依照 以 上 3 项 特征 进行 排名 ， 再 区 分 为 5 个 族群 ， 然 后 再 依 设 定 条 件 为 





每 一 个 捐助 者 评分 ， 以 判断 寄 信 给 这 位 捐助 者 是 否 符合 这 一 次 活动 的 邮 
寄 成 本 。 

现在 ，Age UK 已 经 利用 这 套数 据 分 析 系统 ， 成 功 削 减 了 邮寄 成 本 ， 
但 仍然 保留 了 维持 捐款 额度 的 主要 支持 者 ， 而 且 每 一 个 列 在 直接 寄 送 
邮件 名 单 上 的 捐助 人 ， 响 应 速度 和 总 贡献 度 都 增加 了 100%。 不 仅 如 此 ， 
Age UK 还 利用 这 套 系统 进一步 细 分 捐助 者 的 年 龄 、 居 住地 、 职 业 和 其 他 
人 口 统计 变量 ， 帮 助 该 机 构 推出 更 多 针对 不 同属 性 捐助 者 的 宣传 活动 ， 
实行 后 有 些 活动 所 募 到 的 金额 甚至 较 往年 还 高 。 

利用 数据 分 析 系 统 ， 把 补助 款 和 资源 用 在 真正 需要 的 人 身上 的 ， 除 
T Age UK 之 外 还 有 加 州 的 阿拉 米 达 社会 服务 局 ( Alameda County Social 
Services Agency, ACSSA )。 

有 “黄金 之 州 ” 称 号 的 加 州 ， 截 至 2012 年 7 月 为 止 , 已 经 有 3 座 城 
市 宣布 破产 , 还 有 8 座 城市 正面 临 重 大 的 财政 难关 。 据 统计 目前 在 加 州 
生活 于 贫穷 线 之 下 的 人 口 已 超过 600 万 人 ， 全 美 因 缴 不 出 房贷 而 房屋 被 
依法 拍卖 的 数量 ， 也 以 加 州 占 最 大 比例 。 加 州 的 第 7 大 都 阿拉 米 达 更 是 
其 中 之 最 ， 每 个 月 有 超过 上 千 户 家 庭 会 收 到 房贷 拖欠 通知 。 

目前 ， 阿 拉 米 达 160 万 人 口 当中 ， 有 超过 15 万 人 生活 在 贫穷 线 以 下 。 
他 们 的 生计 很 大 一 部 分 是 依靠 ACSSA 的 补助 , 而 该 机 构 一 年 要 管理 的 案 
件 高 达 19 000 宗 。 但 是 庞大 的 业务 量 和 陈旧 的 系统 早已 无 法 支持 其 需 
求 ， 导 致 该 机 构 常 常 在 事件 发 生 数 周 ， 甚 至 数 月 后 才 获 悉 ， 不 仅 处 理 效 
率 不 彰 ， 而 且 可 能 导致 资源 浪费 和 舞弊 行为 。 

ACSSA 意识 到 他 们 需要 在 社工 提出 要 求 时 ， 及 时 地 提供 更 多 准确 的 
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案件 相关 信息 。2008 年 ACSSA 得 知 IBM 为 服务 旧金山 的 寄养 儿童 开发 
了 一 种 系统 ， 可 以 追踪 该 系统 记录 在 案 的 人 ， 而 且 还 具有 分 析 的 功能 ， 
可 以 帮助 工作 人 员 厘 清 个 案情 况 的 因果 关系 ， 运 用 成 效 相当 良好 。 

因此 ，ACSSA 决定 导入 这 种 结合 分 析 功能 和 商业 智能 的 系统 ,经 过 
2.1 个 月 的 导入 期 后 ， 这 套 系统 不 仅 可 以 实时 为 个 案 社工 提供 项 目的 详尽 
信息 ， 让 他 们 为 每 一 种 情况 找到 最 佳 的 辅助 方案 ， 而 且 还 能 实时 追踪 受 
益 人 与 个 案 之 间 的 关系 ， 有 效 防止 舞弊 和 宛 余 的 现象 。 另 外 ， 以 前 需要 
数 周 或 数 月 才能 获取 的 报表 ， 现 在 也 只 需 几 分 钟 时 间 就 可 以 得 到 。 这 也 
使 得 社工 只有 更 多 时 间 在 现 有 数据 基础 上 ， 利 用 “假设 方案 ”( what if) 
模拟 对 于 个 案 更 好 的 处 理 方法 。 

目前 这 套数 据 分 析 系 统 已 经 提高 了 为 该 机 构 辩护 的 律师 的 效率 和 获 
胜率 ， 每 年 约 节省 了 90 万 美元 ， 并 减少 资源 浪费 超过 1 100 万 美元 ,整体 
效益 的 年 平均 值 接近 2500 万 美元 ， 换 算 成 投资 回报 率 (ROL) 高 达 631%。 


打击 和 预防 犯罪 


先前 提 过 最 早 将 数据 分 析 运用 在 公共 安全 管理 上 的 纽约 市 警 局 ， 借 
由 分 析 犯 罪 数据 的 时 空 分 布 形态 ， 进 而 预测 犯罪 机 率 最 高 的 时 间 与 地 点 ， 
配合 警察 巡 风 的 路 线 调整 ， 让 重大 犯罪 事件 降低 30%， 更 让 纽约 从 罪恶 
之 城 变 成 全 美 最 安全 的 城市 之 一 ( America's Safest Cities), CompStat 系 
统 也 因此 成 为 全 世界 警 局 争 相 仿效 的 对 象 。 

有 了 纽约 市 警 局 的 成 功 案例 之 后 ， 包 括 孟 菲 斯 、 纽 约 、 查 尔 斯 顿 和 
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南 卡 罗莱 纳 州 的 警察 局 都 和 IBM 合作 建立 警 用 数据 分 析 系统 ， 利 用 过 去 
犯罪 活动 的 数据 库 ， 以 及 时 间 和 天 气 等 相关 消息 进行 犯罪 活动 预测 ， 并 
呈现 在 地 图 上 。 

虽然 数据 分 析 系统 的 成 效 齐 著 ， 但 在 实行 上 并 不 如 想象 中 容易 ， 因 
为 绝 大 多 数 的 警察 和 连续 剧 《CSI 犯罪 现场 》 里 善于 利用 高 科技 办 案 的 
形象 相距 甚 远 。 在 使 用 新 技术 方面 ， 美 国 许多 警察 局 甚至 落后 于 青 少 
年 : 一 些 警车 仍 在 使 用 磁带 式 录像 机 ， 或 者 是 使 用 复写 纸 写 报告 。 另 一 
方面 ， 各 个 州 政府 目前 都 在 为 紧缩 的 财政 焦头烂额 警察 的 预算 也 变 得 
相当 吃紧 。 

孟菲斯 是 一 个 典型 的 南方 大 城 ， 人 民 热 情 而 保守 ，2004 年 就 任 的 孟 
菲 斯 警察 局 局 长 鲍德温 (Larry Godwin ) 也 一 样 。 在 担任 局 长 之 前 ,他 是 
一 位 在 海军 陆 战 队 服役 38 年 的 军官 ， 受 过 非常 严格 且 传统 的 训练 ， 退 役 
后 转 任 警 界 ， 负 责 管理 辖 下 9 个 分 局 、2470 名 警 员 。 

然而 一 上 任 ， 鲍 德 温 就 面临 犯罪 率 不 断 攀升 ， 而 预算 却 在 缩减 的 
窘境 。 他 必须 要 在 最 短 的 时 间 内 ， 拿 出 最 有 效 的 方式 ， 保 障 67 万 市 民 
的 安全 。 为 了 有 效 降 低 犯 罪 率 ， 他 在 这 个 作风 保守 的 地 区 ， 大 胆 采 用 了 
IBM 数据 分 析 系统 ， 制定 了 蓝 色 粉 碎 ( Blue CRUSH, Criminal Reduction 
Utilizing Statistical History) 计划 ， 初 期 却 遭 致 议论 ， 因 为 警察 们 都 认为 
应 该 另外 增加 500 名 巡逻 警力 ， 以 抑制 增长 的 犯罪 活动 ， 而 非 花 钱 买 科 
技 设备 。 

但 是 鲍德温 知道 ， 调 整 现 有 的 警力 资源 ， 使 警察 办 案 更 有 效率 才 是 
根本 解决 之 道 ， 因 为 警察 们 需要 的 是 更 有 智慧 、 而 不 是 更 辛苦 地 办 案 。 
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鲍德温 在 获得 市 长 支持 之 后 几 小 时 内 就 开始 执行 这 个 计划 。 他 向 警察 传 
达 两 个 重要 的 消息 : 第 一 、 所 有 的 报告 和 数据 都 要 采用 标准 化 规格 ; 第 
二 、 每 周 举行 的 各 区 指挥 官 会 议 改 为 TRAC (Tracking for Responsibility, 
Accountability and Credibility ) 会 议 ， 追 踪 各 单位 的 实行 成 果 。 这 两 项 命 
令 没 有 模糊 空间 ， 而 且 立 刻 执 行 。 

同时 , 数据 分 析 系统 也 开始 比 对 历史 数据 和 最 新 的 街头 监视 器 画面 ， 
并 深入 了 解 促 使 犯罪 的 长 期 因素 ( 例如 废弃 房屋 的 周边 )， 了 解 当 地 不 同 
犯罪 类 型 的 趋势 、 发 生 的 地 点 时 间 等 ， 计 划 实 施 5 年 以 来 ， 孟 菲 斯 的 犯 
罪 率 已 降低 了 30% 以 上 ， 暴 力 犯罪 降低 了 15%， 重 案 组 的 结案 率 更 是 从 
16% 大 幅 提高 到 70%. 

瑞士 日 内 瓦 警 局 也 遭遇 类 似 的 情况 。 这 个 在 国际 上 享有 高 知名 度 的 
城市 ， 有 许多 全 世界 最 重要 的 国际 组 织 在 此 设立 总 部 ， 包 括 红 十 字 会 、 
世界 卫生 组 织 和 联合 国 欧洲 总 部 等 。 

曾经 荣 登 全 球 最 佳 居住 城市 的 它 ， 近 年 来 犯罪 率 却 上 升 了 超过 15%, 
2010 年 发 生 在 日 内 瓦 境内 的 罪行 就 高 达 61 910 件 ， 高 于 全 瑞士 的 平均 水 
平 。 对 当地 警察 局 来 说 ， 这 是 一 个 非常 令 人 担忧 的 趋势 ， 但 是 更 令 人 忧 
虑 的 是 因为 政府 预算 ， 日内瓦 警 局 的 人 力 必须 缩减 3%， 在 这 种 情况 下 该 
怎么 积极 和 有 效 地 打击 犯罪 ? 

为 了 降低 犯罪 率 , 日 内 瓦 州 警察 局 利用 数据 分 析 技术 加 上 制图 工具 ， 
将 这 些 空间 数据 和 非 空间 数 据 的 分 析 结果 整合 在 一 个 平台 中 ， 每 天 早上 
警方 可 以 收 到 一 份 不 断 更 新 信息 的 犯罪 报告 ， 分 析 当 前 的 犯罪 活动 、 犯 
罪 模式 ， 并 有 助 于 预测 未 来 可 能 会 发 生 的 罪行 。 
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另外 ， 通 过 互动 地 图 和 系统 上 装置 的 仪表 板 ， 每 个 指挥 官 都 可 以 随 
时 查看 各 地 区 发 生 的 案件 ， 如 抢 动 或 意外 事故 等 ， 不 用 等 到 警 局 通知 ， 
就 可 以 知道 哪里 应 该 加 强 部 署 人 力 ， 或 是 在 哪些 地 区 加 强 巡 钦 。 

例如 ， 将 抢劫、 盗窃 、 袭 击 或 是 毒品 交易 的 案件 数据 ， 依 照 地 理 位 
置 进行 编码 ， 经 过 分 析 后 ， 系 统 发 现 青少年 犯罪 的 周期 ， 大 多 集中 在 星 
期 三 下 午 、 星 期 五 和 六 晚上 ， 且 发 生地 点 在 距离 市 中 心 最 远 的 街区 内 。 
警方 可 以 依 此 决定 该 采取 什么 样 的 行动 ， 以 阻止 或 预防 犯罪 活动 ， 并 在 
正确 的 时 间 和 地 点 加 派 警力 巡逻 。 自 从 这 个 解决 方案 推行 以 来 ， 日 内 瓦 
因此 减少 了 3% 、 相 当 于 超过 1800 件 的 罪行 ， 也 重 拾 了 世界 最 佳 居 住 城 
市 的 荣耀 。 

除了 警 务工 作 之 外 ， 这 几 年 来 激进 份子 的 恐怖 袭击 ， 更 使 数据 分 析 
技术 在 公共 安全 管理 上 有 了 重大 突破 。 美 国 9.11 事件 爆发 后 的 911 天 ， 
恐怖 份子 在 西班牙 马德里 引起 了 另 一 次 震惊 世界 的 连环 爆炸 案 。 

2004 年 3 月 11 日 早上 7 点 半 , 正 是 人 们 的 上 班 高 峰 时 间 , 西班牙 马 
德里 市 郊 的 短途 火车 一 如 往常 地 载 送 乘客 ， 没 想到 10 分 钟 后 ， 列 车 正 要 
WUE LB TEA KAU, Bes, ABATE ede. Suttle] 
时 ， 在 开 往 阿 托 查 火车 站 的 铁路 线 上 ， 包 括 市 中 心 附近 的 蒂 奥 雷 蒙 多 火 
车 站 和 圣 欧 享 尼 娅 火车 站 也 相继 发 生 爆 炸 。 

这 次 袭击 ， 在 4 列 火车 上 共 发 生 了 10 次 爆炸 ; 炸弹 由 手机 引爆 ,而 
引爆 时 间 设 为 当地 上 午 7:39 分 。13 个 土 制 炸弹 中 ， 有 10 个 成 功 被 引爆 ， 
造成 一 共 200 名 死难 者 、2000 多 名 伤 者 。 在 这 起 举国 震惊 的 爆炸 案 发 生 
后 ,马德里 市 议会 成 立 了 紧急 应 变 中 央 指 挥 中 心 ( CISEM )， 加 强 城市 保 
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护 机 制 。 以 往 ， 车 察 局 、 消 防 局 、 救 护 车 中 心 、 部 队 、 和 巡警 在 处 置 突 
发 事件 时 ， 因 为 各 自 有 自己 的 指挥 系统 ， 每 个 部 门 还 有 各 自 的 通信 系统 
和 相关 技术 设备 ， 所 以 难以 进行 任何 形式 的 联合 行动 方案 。 

作为 一 个 中 央 指挥 中 心 ，CISEM 目的 就 是 要 让 各 单位 在 突 发 事件 发 
生 时 可 以 马上 联合 运作 ， 并 且 减 少 各 单位 的 标准 流程 和 响应 时 间 ， 同 时 
提供 准确 无 误 的 指令 。IBM 于 2006 年 开始 与 CISEM 一 起 整合 马德里 各 
个 安全 管理 单位 的 通信 和 响应 能 力 。 首 先 ， 每 辆 警察 巡逻 车 、 救 护 车 和 
消防 车 都 配备 了 掌上 电脑 (PDA )， 用 于 通信 和 接收 来 自 CISEM 中 央 指 
挥 中 心 的 指示 。 

然后 , IBM 和 CISEM 整合 了 不 同 部 门 使 用 的 所 有 应 用 程序 , 和 包 
括 马德里 112、 市 紧急 热线 、 影 像 监 控 中 心 、M30 高 速 公路 控制 中 心 
等 外 部 单位 的 IT 基础 设施 ,形成 了 一 套 中 央 应 用 程序 。 而 这 一 套 程序 
也 用 以 管理 在 马德里 举办 的 活动 ， 像 是 足球 赛 等 大 型 公众 集会 。 各 单 
位 通过 移动 设备 取得 数据 和 接收 命令 后 ， 可 以 更 有 效率 地 布 署 警 力 和 
救护 车 。 

第 3 步 则 是 数据 整合 , 将 各 单位 的 信息 全 都 整合 至 一 个 中 央 数 据 库 。 
只 要 市 民 遇 到 紧急 情况 并 拨打 112， 系 统 就 可 以 自动 同时 通知 警察 局 、 救 
护 车 服务 或 消防 局 。 就 算 从 多 个 不 同 来 源 同时 收 到 紧急 事件 的 通报 ， 因 
为 这 些 信息 被 清楚 地 标示 是 属于 同一 起 事件 或 是 一 系列 不 同事 件 ， 便 可 
避免 人 力 的 重复 。 而 且 ， 各 单位 可 根据 不 同 的 紧急 事件 分 配 最 适当 的 资 
源 ， 从 而 使 资源 调动 更 快 、 更 有 效 。 自 从 有 效 整合 之 后 ， 马 德里 发 生 紧 
急 应 变 事故 的 次 数 已 减少 了 25%。 
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瑞典 斯 德 哥 尔 摩 ， 是 一 座 由 岛屿 组 成 的 城市 。14 个 市 镇 分 布 在 大 小 
的 岛屿 上 了 由 各 种 桥梁 相连 二 居民 们 大 多 习惯 驾车 穿行 手 岛 止 之 间 。 - 

这 一 天 ， 和 往常 的 冬日 下 午 一 样 ， 黑 夜 早早 降临 ， 下 午 4 点 钟 就 到 
了 斯 德 哥 尔 摩 的 交通 尖峰 期 。 汽 车 在 路 上 呼 哺 而 过 ， 顺 畅 的 车 流 代表 着 
一 个 先进 的 城市 。 数 年 前 ， 斯 德 哥 尔 摩 和 世界 上 任何 一 个 大 城 一 样 ， 车 
- 多 路 少 ; 道路 建设 满足 不 了 交通 需求 ， 市 政 当 局 鼓励 人 们 乘坐 公共 交通 
工具 ， 但 拥堵 情况 仍 越 演 越 烈 。 

每 天 都 有 超过 50 万 辆 汽车 在 这 座 城市 中 穿梭 ，2005 年 时 人 们 上 下 
O 班 的 通勤 时 间 已 经 比 前 一 年 增加 了 18%。 为 了 解决 交通 堵塞 ， 瑞典 国家 
公路 管理 局 (SNRA ) 和 斯 德 哥 尔 摩 市 政府 在 2006 年 初 宣布 试 征 “ 道 路 
堵塞 税 "。 这 套 道路 收费 系统 与 新 加 坡 、 伦 敦 和 奥斯陆 等 城市 实施 的 政策 
相似 ， 根 据 每 一 天 不 同 的 时 间 对 经 过 的 车 辆 收取 10、15 或 20 的 瑞典 克 
朗 ; 最 高 收费 是 在 上 午 730 一 8:29 和 下 午 4:00~5:29 的 尖峰 时 段 。 

面临 群众 的 反对 声浪 ， 市 政府 提案 : 先进 行为 期 6 个 月 的 测试 之 
后 再 举行 市 民 投票 ， 决 定 该 项 目 施行 与 否 。 碍 于 压力 ， 政 府 官员 要 求 这 
个 系统 必须 在 96 公里 的 时 速 下 ,， “扫描 ” 将近 50 万 辆 汽车 ， 并 且 精 确 识 
别 超过 99% 的 所 有 车 辆 。 pues 

原本 系统 的 规划 是 在 每 个 车 道 的 上 方 都 放置 两 个 摄影 镜头 ， 朝 向 相 
反 的 方向 ， 分 别 捕 提前 后 车 牌 ， 并 且 将 摄影 镜头 的 视野 延伸 至 邻近 车 道 ， 
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以 便 从 各 个 有 利 的 角度 拍摄 每 辆 汽车 。 但 一 开始 识别 的 成 功率 只 有 60%. 
后 来 IBM 开发 出 光学 字符 识别 软件 ( OCR ), 它 可 以 从 任意 角度 辨别 车 辆 
的 牌照 ， 并 且 针 对 光线 强度 的 不 同 、 天 气 恶 劣 或 拍摄 视角 欠 佳 、 标 准 系 
统 可 能 无 法 识别 车 牌号 码 ， 利 用 算法 进行 二 次 识别 。 

这 些 算法 使 用 的 技术 ， 是 模仿 人 类 的 眼睛 ， 例 如 增强 图 像 和 比较 车 
子 头 尾 的 车 牌 分 析 ， 直 至 获得 最 佳 的 视角 。 通 过 这 项 技术 ， 道 路 收费 系 
统 才 顺 利 达到 了 99% 的 精确 度 , 而 且 每 天 经 过 的 近 50 万 辆 汽车 中 只 有 
4 到 5 辆 会 漏 失 拍 摄 ， 执 行 方案 也 才 获得 市 政府 的 认可 。 

为 了 在 不 增加 人 力 的 情况 下 顺利 收费 ，IBM 在 斯 德 哥 尔 摩 城 区 出 入 
口 ， 规 划 了 18 个 车 主 无 需 停车 的 路 边 收费 系统 。 车 辆 通过 第 1 道 激光 束 
时 ， 会 触动 收发 器 天 线 ， 使 收发 器 向 车 辆 的 车 载 传感器 发 出 信号 ， 并 记 
录 下 当下 的 时 间 、 日 期 和 应 缴 税额 。 在 收发 器 工作 的 同时 ， 摄 像 头 会 拍 
摄 车 辆 的 车 头 牌照 ， 等 到 车 辆 通过 第 2 道 激光 束 时 ， 第 2 台 摄像 头 拍摄 
车 尾 牌 照 。 以 上 所 有 步骤 都 可 以 在 毫秒 之 内 完成 ， 车 辆 无 需 减速 。 之 后 ， 
费用 将 从 车 主 的 账户 扣除 ， 或 是 驾驶 者 也 可 以 通过 网 络 、 银 行 以 及 
7-Eleven 等 便利 商店 支付 。 

实施 后 ,这 套 道路 收费 系统 果然 缓解 了 斯 德 哥 尔 摩 的 交通 堵塞 情况 ， 
市 中 心 的 交通 流量 锐 减 25%。 而 且 ， 因 为 通行 时 间 缩短 ， 公 交 车 公司 不 
得 不 重新 设计 交通 时 刻 表 ， 而 使 用 斯 德 哥 尔 摩 公共 交通 工具 的 平均 人 数 ， 
也 比 前 一 年 增加 4 万 多 人 。 甚 至 ， 因 为 车 流量 减少 ， 道 路 的 废气 排放 量 
减少 了 8% 一 14%， 市 中 心 的 二 氧化 碳 等 温室 气体 排放 量 也 下 降 了 40%。 

此 外 ， 试 行 期 间 ， 为 了 怕 民 众 投诉 ， 市 政府 还 设置 了 电话 客服 中 心 ， 


333 


税务 局 甚至 雇用 了 40 名 律师 ， 处 理 可 能 发 生 的 上 诉 案件 但 投诉 电话 却 
没 响 过 。 最 后 全 体 市 民 经 过 投票 ， 通 过 了 这 项 交通 方案 ;他 们 都 同意 ， 
数据 分 析 系统 让 斯 德 哥 尔 摩 回 复 了 原本 的 生活 质量 ， 甚 至 比 原来 的 更 好 。 

斯 德 哥 尔 摩 交 通 整治 的 成 功 案例 ， 让 其 他 有 交通 问题 的 城市 找到 了 
新 希望 ， 例 如 澳洲 的 昆士兰 。 

昆士兰 是 澳大利亚 人 口 增长 最 快 的 州 , 每 星期 有 超过 1500 人 移居 该 
州 ， 其 首府 布 里 斯 班 市 的 劳工 人 口 数 量 预计 在 未 来 20 年 几 近 翻 倍 。 爆 炸 
性 的 人 口 增 长 ， 造 成 交通 拥塞 的 情况 越 来 越 严 重 。2005 年 州 政府 和 昆 士 
兰 高 速 公路 有 限 公司 ( Queensland Motorways, QML ) 合作 投资 18.8 亿 
澳币 ， 进 行 盖 特 韦 大 桥 ( Gateway Bridge ) 升级 改造 和 配套 的 道路 工程 ; 
2007 年 扩大 项 目 规模 ， 延 伸 总 长 61 千 米 的 洛 根 (Logan) 和 盖 特 韦 延 长 
高 速 公路 ( Gateway Extension )， 而 且 道路 容量 倍增 至 12 个 车 道 。 

这 个 道路 系统 规划 ,以 多 车 道 高 速 公路 由 南 蛇 蜂 至 布 里 斯 班 市 北部 ， 
并 绕 过 中 央 商 务 区 ， 为 前 往 布 里 斯 班 的 港口 和 机 场 的 商务 人 士 提供 便利 
运输 方式 。 而 且 该 路 线 中 途 也 穿越 了 布 里 斯 班 河上 最 具 代 表 的 盖 特 韦 大 
桥 ， 成 为 昆士兰 交通 基础 设施 最 重要 的 部 分 。 

不 过 ， 兴 建 过 程 中 州 政府 和 QML 同时 意识 到 ， 不 断 地 增 建 道路 并 不 
能 永远 改善 交通 拥塞 的 问题 ， 因 此 ， 除 了 实体 的 基础 设施 投资 之 外 ， 还 
需要 其 他 可 持续 发 展 的 交通 缓解 政策 。 在 研究 如 何 转变 交通 管理 流程 时 ， 
州 政府 和 QML 发 现 车 辆 在 通过 收费 站 时 , 不 管 是 放 慢 速度 使 用 电子 系统 
付费 ,还 是 停 下 来 用 现金 付款 ， 车 流速 度 都 会 大 大 降低 ， 使 得 收费 站 附 
近 的 车 流 更 加 拥挤 。 


oT 云端 时 代 杀 手 级 应 用 : 








ae oe “RRM RMR FU Ae 
”也 有 有 且 于 日 后 站 关 交 通 管理 > "最 后 他 们 决定 和 TBM 合作 于 2011 年 完成 
-收费 系统 的 完全 电子 化 > 一 一 ~ 

这 套 名 为 自由 畅通 收费 ( Free-Flow Tolling) 的 系统 ， 以 高 科技 的 路 
边 吊 架 取代 传统 的 收费 亭 ， 利 用 摄 录像 机 和 专用 的 短程 通信 技术 追 取 过 
往 车 辆 的 数据 ， 再 通过 车 内 条 形 码 或 使 用 OCR 系统 分 析 车 牌号 码 镜头 来 
识别 车 辆 。 随 后 ， 车 辆 数据 传送 到 相符 的 民众 账户 ， 由 自动 化 计 费 系统 
评估 车 主 需 要 缴纳 的 费用 ， 并 从 客户 账户 的 预付 费用 中 扣除 。 

实施 之 后 盖 特 书 和 洛 根 高 速 公路 的 车 道 通行 能 力 ， 从 每 小 时 约 300 辆 
车 辆 ， 提 高 到 了 每 小 时 超过 2000 辆 车 辆 ， 交 通 时 间 也 缩减 了 10 分 钟 ， 
甚至 因为 车 流 顺畅 ， 高 速 公路 上 的 交通 事故 也 减少 了 27%。 

此 外 ， 运 用 这 些 数据 ，QML 可 以 了 解 路 上 行驶 的 车 辆 类 型 以 及 这 些 
车 辆 上 路 的 频率 和 时 段 ， 并 且 结合 这 些 通勤 交通 模式 数据 和 实时 路 况 数 
据 ， 未 来 可 为 车 主打 造 量 身 订 做 的 路 网 规划 和 建议 。 例 如 ， 每 周一 早上 
前 往 机 场 的 车 主 可 以 直接 在 手机 上 收 到 交通 拥堵 情况 的 相关 报告 ， 并 参 
考 其 最 佳 路 线 规 划 。 

这 个 预测 交通 的 智能 功能 目前 已 成 功 在 新 加 坡 应 用 。 人 们 能 像 获 得 
天 气 预报 一 样 ， 获 得 交通 堵塞 预报 。 通 过 埋 在 路 上 的 传感器 和 红绿灯 上 
的 探头 ， 司 机 不 仅 可 以 看 到 什么 地 方 在 堵车 ， 还 能 够 提前 预测 什么 地 方 
在 10 一 20 分 钟 内 会 堵车 ， 从 而 选择 更 为 通畅 的 道路 行驶 。 美 国 波士顿 也 
正在 跟 进 ， 制 定 类 似 的 交通 整治 计划 。 因 为 运用 了 数据 分 析 技术 ， 城 市 
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的 交通 ， 将 走向 更 加 畅通 无 阻 的 未 来 。 


请 不 要 让 你 的 眼泪 ， 成 为 地 球 上 的 最 后 一 滴水 。 

这 是 几 年 前 , 一句 发 人 深 省 的 公益 广告 词 。 触 动人 心 的 背后 其 实 隐 
藏 了 一 个 更 大 的 危机 。 根 据 联合 国 研究 指出 ， 气 候 变迁 和 人 口 快 速 增长 
导致 的 粮食 、 能 源 和 卫生 需求 增加 ， 已 经 使 得 全 球 水 资源 供应 趋 紧 ， 加 
上 过 去 50 年 抽取 地 下 水 的 数量 增长 2 倍 , 许多 地 区 的 水 供应 已 经 因为 降 
雨 型 态 改 变 、 严 重 干旱 、 冰 川 融化 和 河川 流量 改变 而 减少 ， 今 天 全 球 已 
有 1/5 的 人 不 能 得 到 足够 的 安全 饮用 水 ， 到 2080 年 恐 将 有 半数 人 口 面临 
严重 的 水 资源 短缺 问题 。 

联合 国 还 预 估 2020 年 至 2050 年 间 ， 处 理 水 资源 问题 每 年 需 耗资 
137 亿 一 192 亿美 元 , 而 水 资源 的 枯竭 和 污染 也 成 为 各 国政 府 关注 的 首 
要 议题 。 

位 于 美国 纽约 的 哈 德 还 河 全 长 约 520 公里 ， 河 的 两 岸 孕育 着 近 1200 万 
人 口 ， 文 化 遗产 和 自然 生态 资源 都 非常 丰富 。 但 是 二 次 世界 大 战 后 ， 许 
多 跨国 企业 例如 通用 电气 、 通 用 汽车 等 都 在 哈 德 还 河沿 岸 设立 了 自己 的 
工厂 ,工业 的 发 展 使 得 这 条 河 在 一 定 的 程度 上 章 到 了 污染 。 

如 何 恢复 哈 德 了 还 河 的 原 有 风貌 成 为 纽约 市 政府 的 课题 。 市 政府 与 
IBM 合作 ， 建 立 了 全 球 第 一 个 电子 化 的 水 资源 管理 中 心 (AWM，Advanced 
Water Management )， 并 在 哈 德 还 河中 放置 了 很 多 的 传感器 和 电子 卷 标 。 




















政府 : 提高 效率 导 打 击 犯罪 


这 些 智 能 浮标 可 以 让 传感器 通过 无 线 网 络 送 回 计算 中 心 ， 进 行 计算 模式 
的 分 析 和 处 理 。 所 有 数据 会 在 计算 机 系统 里 被 显示 成 一 个 虚拟 河流 ， 每 
一 个 层面 的 变化 都 可 以 实时 被 控制 ， 用 以 协助 环保 政策 制定 、 区 域 经 济 
规划 和 水 生物 管理 。 

这 套 水 污染 防治 系统 ， 在 2008 年 被 移植 到 了 爱尔兰 的 高 威海 湾 
(Galway Bay ) IBM 和 爱尔兰 的 工业 发 展 局 共同 合作 ， 借 助 传感器 汇 整 
入 海河 流 的 流动 状态 、 海 浪 高 度 和 浮游 生物 、 水 质 、 鱼 群 等 大 量 数据 ， 
监控 高 威海 湾 的 污染 水 平和 其 他 环境 状况 。 

在 像 高 威海 湾 这 样 的 封闭 水 域 里 ， 污 染 物 扩散 的 危险 比 开 阔 的 海面 
产生 速度 更 快 ， 因 此 需要 实时 获得 和 解读 海湾 的 相关 信息 ， 并 且 立 即 对 
任何 危险 信号 采取 防治 行动 。 因 此 ， 研 究 人 员 在 海湾 上 装 设 配 有 射频 技 
术 的 智能 浮标 ， 并 配备 了 传感器 ， 用 来 收集 包括 盐 度 、 温 度 、 波 浪 能 、 
潮汐 和 海湾 内 鱼 类 和 植物 等 各 种 生物 的 状态 ， 通 过 流 计算 24 小 时 不 间断 
地 分 析 这 些 数据 。 

由 于 系统 可 与 其 他 在 线 数据 库 ( 例如 地 理 空间 信息 ) 结合 在 一 起 ， 
不 仅 可 以 作为 水 污染 预警 系统 ， 也 可 以 让 气候 研究 人 员 利 用 陆地 上 的 传 
感 器 和 海湾 中 的 传感器 ， 了 解 陆 海 接口 的 二 氧化 碳 交 换 ， 测 试 全 球 气候 
变化 的 长 期 影响 ， 海 洋 生 物 学 家 可 以 使 用 海湾 中 部 署 的 声波 传感器 评估 
海洋 哺乳 动物 数量 ; 实时 的 潮汐 数据 也 让 波浪 发 电 成 为 该 地 区 的 另 一 个 
替代 性 能 源 。 

除了 防治 水 污染 之 外 ， 近 期 数据 分 析 系 统 也 开始 用 于 空气 质量 的 监 
测 。 由 于 全 球 变 暖 现 象 ， 使 得 森林 火灾 在 近 几 年 发 生 的 频率 越 来 越 高 , 
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根据 联合 国 统计 ， 全 世界 每 一 年 受到 森林 和 荒地 火灾 影响 的 土地 高 达 
3.5 亿 公顷 。 

无 情 的 野火 不 仅 给 人 类 带 来 了 巨大 的 生命 和 财产 损失 ， 还 使 得 气候 
变化 、 空 气 污染 和 立 失 生物 多 样 性 等 问题 进一步 恶化 。 例 如 ，2009 年 发 
生 的 澳洲 维多利亚 森林 大 火 就 导致 2000 多 所 房屋 被 焚毁 ，175 人 死亡 , 造 
成 的 经 济 损失 高 达 15 亿美 元 。2012 年 发 生 的 美国 科罗拉多 州 野火 ， 也 迫 
使 附近 居民 约 3.2 万 人 仓皇 逃离 家 园 ， 大 火 灰 迷 直 冲 云 霄 ， 高 达 6100 米 ， 
也 为 当地 的 环境 生态 带 来 一 场 浩 动 。 

马里 兰 大 学 巴尔 的 摩 分 校 (UMBC ) 从 2008 年 开始 研究 野火 烟雾 
(wildfire smoke ) 的 扩散 模式 ， 以 提供 消防 及 公共 安全 官员 实时 评估 火势 。 
以 往 ， 烟 雾 模式 的 分 析 仅 限于 气象 预报 ， 且 大 多 是 以 低 分 辩 率 卫星 图 辅 
以 一 线 工作 人 员 的 意见 ， 大 约 每 6 小 时 才能 更 新 一 次 ; 而 使 用 TBM 的 流 
计算 系统 ， 分 析 森 林 大 火 的 烟雾 方向 时 ， 研 究 人 员 可 以 立即 处 理 从 无 人 
驾驶 飞机 、 高 分 辨 率 卫 星 图 和 空气 质量 传感器 收集 而 来 的 大 量 数据 ， 建 
立 驱 散 烟雾 的 有 效 模式 ， 并 且 随 时 更 新 。 

要 建立 烟雾 扩散 的 数学 模式 非常 不 容易 ， 因 为 它 会 随 着 不 同 的 风向 、 
气候 ， 甚 至 是 人 为 因素 而 随时 改变 。 同 时 ， 因 每 一 个 地 方 的 扩散 烟雾 颗 
粒 浓度 不 同 ， 数 值 也 会 不 断 变动 。 因 此 ， 研 究 人 员 首 先 要 从 多 个 渠道 ， 
如 美国 航空 局 、 国 家 海洋 和 大 气管 理 局 (NOAA ) 建立 的 空中 卫星 传 感 
器 ， 以 及 地 面 上 的 烟雾 探测 器 等 收集 实时 的 空气 质量 数据 。 

不 过 ， 由 于 美国 国家 海洋 和 大 气管 理 局 设 定 的 静止 卫星 ， 提 供 的 测 
量 大 约 每 半 小 时 一 次 ,而 NASA ( 美国 国家 航空 和 航天 局 ) 提供 的 轨道 
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政府 : 提高 效率 .打击 犯罪 


卫星 ,测量 操作 一 天 两 次 ， 所 以 还 需要 搭配 无 人 飞机 回 传 的 影像 ， 以 此 
更 准确 地 判别 空气 中 烟雾 颗粒 物质 的 浓度 。 

之 后 系统 通过 数据 分 析 系统 里 的 气 滞 扩 散 模型 (HYSPLIT )， 预 测 烟 
雾 颗 粒 在 大 气 中 扩散 的 走向 ， 并 以 此 计算 出 浓 烟 的 覆盖 范围 ， 预 测 火 和 
烟 的 走势 ， 并 建立 相对 应 的 空气 质量 监测 虚拟 模型 ， 协 助 消防 人 员 更 准 
确 地 了 解 森 林 火 灾 的 蔓延 趋势 ， 实 时 发 布 预警 ， 以 减少 死亡 人 数 和 财产 
损失 。 

目前 研究 还 在 进行 当中 ， 但 这 是 人 类 第 一 次 有 能 力 利用 数据 分 析 ， 
对 气体 进行 预测 ， 且 准确 率 较 先前 提高 了 约 16%。 这 不 仅仅 是 科技 带动 
污染 防治 和 公共 安全 的 第 一 步 ， 更 是 利用 人 类 科学 方法 洁净 地 球 、 回 复 
生机 的 开始 。 
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”油价 和 高 电价 让 可 持续 能 源 议题 持续 发 烧 ， 也 使 得 大 数据 分 析 
在 能 源 产业 的 重要 性 与 日 俱 增 。 最 明显 的 例子 是 在 第 1 章 提 过 
的 美国 政府 “大 数据 研究 和 发 展 计划 "。 这 项 计划 总 共 耗 资 两 亿美 元 ， 其 
中 有 1/8 (2500 万 美元 ) 拨 给 能 源 部 ( Department of Energy )， 用 于 研究 
如 何 运用 大 数据 加 强 能 源 使 用 效率 。 

在 业界 ， 大 数据 分 析 因为 直接 影响 到 营利 ， 更 是 了 不 起 的 大 事 。 能 
源 业 涵盖 从 探勘 、 生 产 和 运输 石油 及 天 然 气 等 能 源 的 公司 ， 到 负责 发 电 
和 供电 的 电力 公司 。 不 少 企业 已 经 装 设 智能 化 的 监测 设备 ， 实 时 收集 大 

量 的 作业 数据 进行 仿真 分 析 ， 以 提高 生产 力 、 降 低 成 本 ， 并 实时 评估 设 
备 稳定 度 ， 防 止 运作 中 断 或 发 生 事故 。 

以 油气 探勘 为 例 ， 多 数 人 以 为 石油 和 天 然 气 储 蕊 在 地 下 岩洞 中 ， 只 

要 找 对 地 方 就 可 开采 。 事 实 上 ， 油 气 大 部 分 都 是 薄 茂 在 地 下 岩层 的 孔 
隙 内 ,能源 公司 必须 收集 油气 层 上 方 每 个 位 置 的 地 质数 据 ， 有 系统 地 
整理 ， 再 利用 已 知 点 的 数据 推论 未 知 点 的 特性 ， 以 尽 可 能 描述 整个 油 
气田 的 动态 。 

由 此 可 知 ， 油 气 探勘 本 来 就 是 信息 非常 密集 的 工作 ， 再 加 上 现在 由 

于 容易 开采 的 传统 油井 日 益 称 少 ， 企 业 只 好 越 外 越 深 、 并 往 危险 性 高 的 
地 区 开采 。 在 这 样 的 趋势 下 ， 地 质数 据 掌握 得 越 多 、 越 深入 ， 分 析 越 精 
细 ， 开 采 的 成 本 和 风险 就 有 可 能 降低 。 业 界 也 因而 出 现 了 “数字 油田 ” 
( digital oilfield ) 的 新 名 词 ， 指 的 就 是 在 探 钴 过 程 中 广泛 收取 和 分 析 数据 
的 新 型 营运 模式 。 企 业 会 在 探 其 设备 和 运输 管线 上 大 量 安装 传感器 ， 以 

“实时 提取 数据 ， 并 利用 高 速 通信 和 数据 挖 所 的 技术 ， 远 程 监控 和 随时 调 





能 源 : 节能 减 排 新 利器 


整 钻井 作业 。 

业界 评估 ， 数 字 油田 的 效益 如 果 发 挥 到 极致， 可 以 把 产量 提高 8%。 
以 原油 价格 100 美元 的 保守 估计 来 看 ， 就 算是 日 产量 仅 有 1000 桶 的 小 型 
油田 ， 一 年 下 来 也 能 增加 近 4 百 万 美元 的 营 收 。 说 得 夸张 点 ， 对 石油 公 
司 来 说 ， 控 数据 简直 就 像 挖 石油 一 样 有 价值 ! 

另 一 个 和 一 般 人 生活 更 接近 的 例子 是 ， 每 个 月 家 家 户 户 都 得 缴纳 的 
电费 。 传 统 的 机 械 式 电表 是 一 个 转动 的 银色 圆 盘 ， 用 来 显示 用 电 度数 ， 
但 却 无 法 提供 详尽 的 用 电信 息 。 大 多 数 人 想 了 解 日 常用 电 的 唯一 信息 来 
源 就 是 每 个 月 的 账单 。 

现在 新 的 以 液晶 显示 器 呈现 用 电量 的 智慧 电表 ( smart meter )， 除 了 
可 以 呈现 每 一 户 详细 用 电量 的 变化 之 外 ， 更 重要 的 是 通过 不 同 的 电价 方 
案 ， 促 使 用 电 户 自发 性 降低 电能 使 用 ， 或 选择 在 电费 比较 便宜 的 非 高 峰 
时 段 使 用 洗衣 机 或 洗 硫 机 等 高 耗 电量 的 家 电 。 这 样 做 ， 可 以 帮助 电力 公 
司 运用 电价 诱因 和 缓 负载 曲线 ， 以 降低 生产 成 本 。 而 整合 同步 向 量 
( synchrophasor )、 错 误 侦 测 和 智慧 电表 等 各 种 设备 运作 数据 的 智慧 电网 
(smart grid) 系统 ， 可 以 形成 可 视 化 的 消息 ， 提 供给 调度 人 员 ， 让 他 们 了 
解 电力 设施 是 否 正常 运作 ， 一 旦 察觉 到 某 些 设备 出 现 电压 不 稳 或 用 电量 
暴 增 ， 控 制 中 心 也 可 以 迅速 进行 调度 ， 避 免 在 尖峰 时 段 供电 不 足 ， 或 是 
在 非 高 峰 时 段 电力 闲置 的 状况 。 

不 过 ， 相 较 于 传统 电表 每 个 月 只 记录 一 次 用 电量 ， 以 液晶 显示 器 呈现 
用 电量 的 智慧 电表 ， 最 少 每 15 分 钟 记录 一 次 。 这 相当 于 每 个 月 有 3000 笔 
记录 。 以 家 庭 户 数 约 100 万 的 台北 市 为 例 ， 光 是 每 个 月 的 电表 数据 就 从 
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100 万 条 暴 增 为 30 亿 条 。 

数 十 亿 条 的 用 户 数据 、 数 千 个 变电站 和 中 转 单位 、 电 力 传输 的 复杂 
计算 法 则 和 预报 性 气候 建 模 软件 ， 这 一 大 片 包 含 了 来 自 网 络 和 电力 系统 
中 大 量 设备 与 传感器 的 数据 ， 代 表 的 是 能 源 企业 在 发 展 智慧 电网 的 同时 ， 
首先 要 面 对 的 是 数据 资料 蔓延 带 来 的 挑战 。 

另 一 方面 ， 传 统 电网 中 发 电 端 的 产 电量 通常 是 高 度 可 预测 的 ， 所 以 
电力 公司 可 以 很 容易 地 配合 用 电量 的 趋势 ， 在 配 电 端 建立 供电 模型 。 然 
而 ， 因 为 大 量 可 再 生 能 源 ， 例 如 风能 和 太阳 能 被 投入 电力 系统 ， 这 些 
因 和 气候 而 导致 产能 变化 幅度 很 大 的 新 能 源 ， 却 反而 让 发 电 端 出 现 了 新 
的 变量 。 

相 较 于 传统 电网 无 法 预测 不 稳定 的 电力 来 源 ， 智 慧 电网 则 可 以 采用 
同步 相 量 技术 ， 以 每 秒 30 次 的 频率 向 控制 中 心 回 报 电路 的 电压 、 电 流 和 
频率 等 数据 ， 以 提供 发 电 端 实时 的 变化 ， 调 整 配 电 的 稳定 度 。 但 如 此 做 
法 ， 不 可 避免 地 增加 了 大 量 的 数据 资料 。 

对 于 必须 时 时 刻 刻 维持 正常 运作 的 电力 公司 来 说 ， 要 建立 完整 的 智 
慧 电 网 架构 ， 玻 需 一 套 新 的 工具 来 管理 两 端的 电力 平衡 和 暴 增 数 千 倍 以 
上 的 数据 资料 。 而 大 数据 分 析 ， 正 是 能 源 企 业 口 中 所 说 的 “复杂 事件 处 
#8519" ( complex event-processing engines )， 也 是 智慧 电网 能 和 否 成 为 国家 
级 能 源 政策 的 关键 。 

根据 中 国 台 湾 地 区 资 策 会 产业 情报 研究 所 ( MIC ) 统计 ，2010 年 全 
球 智 慧 电 网 市 场 规模 约 有 900 亿美 元 ， 预 估 至 2015 年 时 将 增长 至 1900 
亿美 元 ; 其 规划 与 发 展 上 以 美国 最 为 领先 ， 欧 盟 、 日 本 、 韩国 、 中 国 等 
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也 积极 展开 相关 计划 。 

为 什么 美国 可 以 率先 在 2009 年 宣布 斥资 34 亿美 元 ， 协 助 公共 事业 
企业 在 全 美 49 个 州 建构 智慧 电网 ， 并 补贴 1800 万 个 家 庭 装 设 智慧 电表 
呢 ? 其 实 这 也 和 美国 政府 先 一 步 重视 大 数据 分 析 的 应 用 息息相关 。 

















智慧 供电 系统 


南 加 州 爱迪生 电力 公司 ( Southern California Edison, SCE ) 是 全 美 最 
大 的 电力 公司 之 一 ， 服 务 范围 涵盖 加 州 中 部 、 南 部 和 沿海 地 区 ， 每 天 供 
电 给 500 万 用 户 ， 其 中 包括 30 多 万 家 企业 ， 服 务 总 人 口 近 1400 万 人 。 

2009 年 9 月 ， 在 加 州 公共 事业 委员 会 授权 下 ，SCE 推出 “Edison 智 
慧 连接 ”( SmartConnect ) 计划 ， 预 计 在 3 年 内 协助 500 万 用 户 改装 智慧 
电表 。 用 电 户 不 仅 可 以 运用 智慧 电表 调整 用 电 模式 ， 家 中 有 电动 汽车 的 
用 户 还 可 以 在 车 库 中 装 设 家 用 充电 装置 ， 依 据 自己 的 使 用 需求 向 SCE 订 
购 充电 模式 ， 如 夜间 充电 或 白天 充电 、 以 110 瓦 功率 慢 充 或 240 瓦 功率 
快 充 等 。 

对 于 目标 是 在 2050 年 前 将 个 人 交通 设备 全 面 更 换 为 零 排放 车 辆 的 加 
州 来 说 ， 此 项 计划 预计 将 协助 用 户 减少 1000 兆 瓦 ( 约 100 万 度 电 ) 左右 
的 用 电 需 求 ， 相 当 于 一 个 普通 发 电厂 的 发 电量 ， 而 整个 加 州 每 年 也 将 减 
排 36.5 万 吨 的 温室 气体 和 排 烟 污染 物 ， 等 于 路 上 少子 7.9 万 辆 汽车 。 

未 来 ， 这 项 计划 更 将 结合 第 三 方 开发 新 的 消费 应 用 层面 ， 例 如 帮助 
消费 者 进行 在 线 用 电 管理 ， 或 是 建立 GPS 和 电表 之 间 的 联系 ， 这 样 用 户 
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就 可 以 在 回 家 前 20 分 钟 发 送 指令 ， 预 先 打开 家 里 的 空调 。 

对 于 电力 公司 来 说 ， 智 慧 电网 除了 可 以 自动 区 分 不 同 的 电流 ， 并 
收取 不 同 的 电费 ， 甚 至 还 能 进一步 自我 修复 故障 。 以 往 ， 电 力 设施 出 
现 故障 时 ， 工 人 通常 有 两 个 选择 : 一 是 毫 无 头绪 地 搜索 故障 的 根源 所 
在 地 ， 二 是 等 待 使 用 者 投诉 ， 然 后 根据 投诉 人 的 位 置 确定 大 略 的 故障 
发 生地 。 

不 过 ， 无 论 是 哪 一 种 方法 都 耗 时 甚 久 ， 因 为 传统 的 一 个 电网 区 域 就 
广 达 方圆 1.3 万 平方 千 米 , 只 要 一 道 闪 电 伴随 着 一 声 雷 响 划 过 天 空 , 一 根 
树干 应 声 倒 地 ， 压 倒 了 电线 ， 就 有 可 能 造成 数 十 万 用 户 停电 。 

通过 智慧 电网 ， 以 前 需要 好 几 个 小 时 才能 排除 的 事故 ， 现 在 只 要 
10 秒 钟 ， 电 网 就 会 通知 总 部 哪些 电线 受到 了 影响 ， 并 且 自动 改变 送 电 线 
路 ， 恢 复 供电 。 系 统 还 可 以 依据 电路 中 断 的 情况 通知 总 部 事故 发 生 的 地 
点 ， 以 便 尽 快 派 遗 维修 工人 前 往 修复 。 在 饱 受 电网 故障 困扰 的 地 区 ， 缩 
短 电力 系统 停 运 的 时 间 可 以 节约 数 百 万 元 的 成 本 。 

应 对 电动 汽车 增多 而 开始 实施 的 西北 太平 洋 智慧 电网 示范 项 目 
( Pacific Northwest Smart Grid Demonstration Project ) 也 是 如 此 。 原 本 美国 
政府 和 企业 推动 电动 汽车 就 是 为 了 节能 减 排 ， 但 是 隶属 美国 能 源 部 的 邦 
威 电力 管理 局 ( Bonneville Power Administration, BPA) 却 发 现 ， 偿 晚 通 
常 是 电力 负载 的 高 峰 ， 因 为 这 个 时 间 大 家 下 班 回 家 开始 做 饭 ， 并 打开 热 
水 器 或 空调 等 多 项 用 电 设备 ， 但 人 们 又 习惯 下 班 后 将 电动 车 直接 停 进 车 
库 充电 ; 如 此 一 来 用 电量 就 会 瞬间 身高， 很 容易 使 得 区 域 电网 负载 过 重 ， 
可 能 得 盖 一 座 新 的 电厂 来 支 应 这 项 新 需求 。 


云端 时 代 杀 手 级 应 用 : 
| 346 | 大 数据 分 析 


a> 8a 
能 源 : 节能 减 排 新 利器 
~ 


由 于 盖 一 座 新 电厂 本 身 就 是 一 次 能 源 消耗 ， 这 样 做 就 完全 无 法 达到 
推动 电动 汽车 以 节能 减 排 的 目的 ， 于 是 他 们 开始 思考 ， 怎 么 样 才能 在 不 
盖 新 电厂 的 情况 下 提高 电网 效率 。BPA 和 巴特 尔 公司 (Battelle) 以 及 华 
盛 顿 大 学 合作 研究 发 现 ， 如 果 车 主 可 以 改 在 半夜 的 非 高 峰 时 段 替 电动 汽 
车 充电 ， 就 可 以 消化 傍晚 用 电 高 峰 时 70% 的 电量 负载 ， 而 且 完全 不 用 增 
建 电厂 。 

但 是 ， 总 不 能 要 求 车 主 半夜 起 床 替 电动 车 充电 吧 ! 他 们 的 解决 办 法 
是 ,针对 美国 5 个 州 、6 万 个 用 户 装 设 智慧 电表 。 这 种 智能 型 电表 借 由 感 
测 、 接 收 的 用 电量 数据 ， 帮 助 电力 公司 更 有 效 地 分 配 电力 ， 不 仅 可 以 在 
用 电 高 峰 期 提醒 用 户 ， 建 议 关闭 某 几 项 用 电量 较 高 的 空调 、 干 衣 机 等 家 
庭 电 器 ， 并 依 此 给 予 电费 奖励 ， 更 可 以 直接 设 定 电动 汽车 的 充电 时 间 ， 
鼓励 用 户 将 之 设 定 在 电费 优惠 的 半夜 时 段 。 

如 此 一 来 ，BPA 就 不 必 再 随 着 尖峰 爆 量 而 筹 盖 新 电厂 ， 或 至 少 可 先 
在 电网 内 进行 适当 调度 ， 而 把 新 电厂 的 投资 往 后 延 几 年 。 建 立 一 座 新 电 
厂 从 资本 投入 、 营 运 到 维持 ， 通 常 需要 耗资 6 亿 到 10 亿美 元 的 费用 ， 可 
见 省 下 的 成 本 非常 惊人 。 


驾驭 气候 数据 
丹麦 的 风力 发 电机 组 厂商 Vestas Wind Systems A/S 是 全 球 最 大 的 风力 


发 电机 供 货 商 ，2009 年 全 球 市 场 占 有 率 为 12.5%。 该 公司 成 立 于 1945 年 ， 
自 1979 年 起 投入 风力 发 电 系 统 的 研发 制造、 销售 和 维修 业务 , 至 今 已 在 
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全 球 装 设 4.3 万 多 台风 力 机 组 ， 目 前 平均 每 3 小 时 就 新 架设 一 台风 力 机 ， 
每 年 总 发 电量 已 超过 9 000 万 兆 瓦 ( 约 900 亿 度 电 )， 足 以 供应 数 百 万 家 
庭 使 用 。 

Vestas 认为 ， 到 2020 年 时 ， 风 力 发 电 将 占 全 球 一 成 的 电力 供给 量 ， 
有 很 大 的 发 展 潜力 。 风 和 石油 、 天 然 气 等 石化 燃料 不 一 样 ， 可 再 生 、 
又 干净 ， 也 能 大 规模 商业 运转 。 但 风力 机 的 选 址 和 配置 却 是 非常 刺 手 
的 问题 。 

风力 发 电 是 利用 风力 带动 风车 叶片 旋转 ， 来 促使 发 电机 发 电 。 一 般 
认为 ， 风 大 的 地 方 就 适合 装 设 风力 机 组 ,但 其 实 ， 不 只 风 的 强度 ， 机 组 
所 在 风 场 ( wind farm) 地 面 的 粗糙 度 ， 甚 至 建筑 物 、 大 树 灌木 从 都 会 对 
风速 造成 影响 ， 而 无 法 产生 最 大 电量 。 

A, “KY” (turbulence) 也 很 麻烦 。 紊 流 也 称 为 乱 流 ， 是 以 不 
规则 和 不 稳定 状态 流动 的 气体 。 常 坐 飞机 的 人 应 该 都 有 遇 到 乱 流 的 经 
验 ， 轻 微 的 话 ， 机 体 摇 动 或 震荡 一 下 就 过 了 ， 但 严重 时 可 能 会 造成 飞 
行 安全 事件 。 风 力 机 也 会 遭遇 乱 流 ， 因 为 机 组 得 朝 迎风 方向 设置 ， 而 
风流 经 叶片 后 会 在 背风 面 呈 现 不 规则 流动 。 强 劲 紊 流 会 降低 风能 并 增 
加 对 机 组 的 磨损 ， 造 成 零件 故障 。 风 力 机 每 座 造 价 至 少 330 万 美元 ， 
预计 寿命 为 20 年 ,如 果 没 有 控制 好 训 流 而 导致 机 器 寿命 缩短 ， 损 失 可 
是 非常 惊人 。 

说 穿 了 ， 风 力 机 位 置 的 选择 直接 关系 客户 的 投资 回报 率 和 Vestas 的 
营 收 。 地 点 选 错 了 ， 发 电量 不 如 预期 、 机 器 寿命 变 短 ， 会 减损 电厂 的 投 
资 回报 率 ， 导 致 Vestas 流失 客户 。 再 者 ， 由 于 机 器 故障 率 高 ，Vestas 也 得 
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负担 更 高 的 保 辕 成 本 。 

一 直 以 来 ，Vestas 靠 参考 内 部 的 “风力 图 书馆 ”( wind library ) 为 风 
力 机 选 址 。 这 个 图 书馆 其 实 是 个 大 数据 库 ， 里 面 存 有 Vestas 在 全 球 66 个 
国家 已 架设 机 组 位 置 的 气流 信息 ,以 及 来 自 世界 各 地 共 3.5 万 个 气象 站 的 
气象 数据 。 

统 整 这 些 数据 后 ，Vestas 把 全 球 划分 成 一 个 个 面积 729 平方 公里 ( 约 
等 于 一 个 石门 水 库 的 大 小 )、 长 宽 均 27 公里 的 正方 形 区 块 ， 就 好 像 地 球 
仪 上 经 纬度 交错 所 产生 的 网 格 一 样 ， 不 过 每 一 格 显示 的 是 气象 信息 。 工 
程 师 可 以 运用 流体 力学 的 计算 模型 ， 把 范围 再 缩小 到 只 有 100 平方 米 ， 
以 评估 特定 地 点 的 风力 、 风 向 和 温 湿度 等 。 

或 许 你 觉得 100 平方 米 已 经 很 小 了 , 但 如 果 能 把 每 个 网 格 的 面积 再 
缩小 一 点 ， 气 候 模型 的 仿真 就 能 更 精准 ; 但 前 提 是 要 有 更 多 的 数据 。 
Vestas 因此 计划 收集 更 多 气象 数据 ; 他 们 预 估 ， 长 期 下 来 风力 图 书馆 的 馆 
藏 可 能 会 增加 到 24 PB， 如 果 都 用 DVD 储存 的 话 ， 这 些 DVD 和 迭起 来 可 
以 从 地 球 到 月 球 来 回 24 趟 。 

数据 变 多 ,其实 加 大 储存 设备 的 容量 即 可 ,真正 的 难题 在 于 如 何 对 
更 大 量 的 数据 做 更 细致 的 分 析 ， 而 且 ， 还 得 大 幅 加 快 分 析 的 速度 ， 才 能 
保持 竞争 优势 。 于 是 ，Vestas 和 IBM 合作 部 署 一 个 新 的 超级 计算 机 平台 ， 
运用 专门 处 理 大 量 结构 和 非 结构 数据 的 分 析 技 术 ， 让 工程 师 可 以 更 准确 、 
更 快速 预测 特定 区 域 的 气候 模式 ， 以 找 出 发 电量 最 高 的 位 置 。 

为 了 决定 装机 地 点 ，Vestas 过 去 会 分 析 178 个 变量 ,包括 温度 、 气压 、 
湿度 、 降 雨量 、 风 向 和 风力 等 ， 以 评估 当地 是 否 具备 适当 的 气候 条 件 。 


所 需 的 分 析 时 间 平 均 要 3 个 星期 。 现 在 又 加 入 卫星 空 照 图 、 过 去 10 年 气 
候 数 据 、 全 球 森 林 砍 伐 指数 及 地 理 空间 、 月 亮 、 潮 汐 变化 等 参数 ， 分 析 
的 变量 暴 增 为 好 几 百 个 ,但 只 需要 3 天 就 能 跑 出 结果 。 

除了 速度 变 快 以 外 ,分 析 的 准确 度 也 提高 了 。 本 来 长 宽 各 27 公里 大 
小 的 网 格 ， 已 经 缩小 到 长 宽 都 只 有 3 公里 而 已 ， 面 积 几乎 缩小 90%; 利 
用 流体 力学 模型 演算 后 ， 又 可 锁定 更 小 的 范围 ， 提 高 分 析 模拟 的 准确 度 
和 效率 。 由 于 Vestas 可 加 快 风力 机 的 选 址 和 装 设 作业 ， 机 组 能 够 提前 一 
个 月 上 线 ， 让 客户 提早 回收 投资 。 

还 有 , Vestas 还 可 检查 每 一 台 已 装 设 风力 机 的 运作 数据 , 再 与 大 量 的 
气候 信息 交叉 比 对 ， 预 测 出 每 个 位 置 的 潜在 风险 ， 在 机 器 出 问题 前 提早 
应 对 ， 因 此 能 保障 客户 的 投资 ， 也 为 自己 节省 产品 保 固 的 成 本 。 


调节 水 坝 发 电 


贵州 乌江 水 电 开发 有 限 责任 公司 是 中 国 华电 集团 公司 的 持 股 子 公 
司 。 华 电 集团 是 中 国 五 大 国有 发 电 公司 之 一 ， 由 国务 院 直 接管 理 。 贵 州 
乌江 水 电 开发 有 限 责任 公司 是 中 国 第 一 家 流域 水 电 开 发 公司 ， 华 电 集团 
持 有 该 公司 51% 的 股份 ， 另 外 49% 为 贵州 省 政府 所 有 。 

中 国 是 世界 水 能 资源 总 量 最 丰沛 的 国家 ， 且 有 75% 的 水 能 资源 集中 
在 西南 部 的 云南 、 贵 州 、 四 川 、 重 庆 和 西藏 等 也， 所 以 素 有 “世界 水 电 
在 中 国 ， 中 国 水 电 在 西南 ”的 说 法 。 乌 江 是 贵州 省 第 一 大 河 ， 也 是 世界 
第 三 大 河 长 江 的 最 大 支流 。 乌 江 沿 岸 共 设 有 9 个 水 坝 ， 其 中 有 7 个 属 贵 
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州 乌江 水 电 开 发 公司 所 拥有 和 管理 。 

该 公司 在 这 7 个 水 坝 和 其 相应 的 水 电站 设置 传感器 ， 以 监控 水 位 、 
水 压 、 电 压 、 电 量 和 水 坝 安全 机 组 的 状态 ， 但 信息 没有 汇总 和 分 析 ， 所 
以 水 电站 之 间 彼 此 脱节 ， 只 是 各 管 各 的 。 

水 力 发 电 是 利用 水 坝 和 发 电站 之 间 的 水 位 落差 推动 发 电机 ， 而 得 到 
电力 。 这 些 水 坝 设 在 乌江 上 游 到 下 游 不 同 区 域 ， 每 一 个 都 会 放水 发 电 。 
上 面 的 水 坝 放水 后 ,使 上 游 发 电站 能 够 发 电 , 水 也 会 流入 下 面 的 水 坝 。 
万 一 上 游 的 水 坝 一 下 子 放 太 多 水 ， 可 能 会 超过 下 游 发 电 设备 的 处 理 能 
力 而 造成 浪费 ， 甚 至 导致 下 游 水 位 过 高 而 发 生 溢 流 ， 因 而 破坏 沿岸 的 生 
态 环境 ; 但 若水 放 得 不 够 多 ， 下 游 发 电站 则 无 法 产生 足够 的 电量 。 因 此 ， 
7 个 水 电站 彼此 之 间 其 实 是 互相 连 动 而 无 法 分 开 运作 的 。 

为 了 提高 总 发 电量 ， 并 降低 水 坝 对 环境 的 伤害 ， 贵 州 乌江 水 电 公 
司 建立 一 个 整合 分 析 平台 ， 集 中 管理 和 调节 所 有 水 坝 和 水 电站 的 营运 。 
通过 实时 分 析 传 感 器 所 采集 的 信息 ， 他 们 可 以 计算 出 附近 的 下 游 发 电 
站 需要 多 少 的 放水 量 ， 还 能 针对 每 个 水 坝 的 水 文 、 水 位 和 发 电量 进行 
逐年 或 更 长 周期 的 对 比 ， 如 参考 过 去 几 年 的 降雨 量 ， 以 更 准确 地 预测 
所 需 放 水 量 。 

借 由 精密 的 计算 和 预测 , 现在 水 坝 只 会 放出 发 电站 所 能 处 理 的 水 量 ， 
并 同时 考虑 放水 对 下 游 沿岸 生态 和 居民 用 水 的 影响 。 因 为 贵州 近 几 年 饱 
受 旱 灾 所 苦 ，2011 年 时 东北 部 地 区 的 旱情 甚至 持续 半年 之 久 ， 所以， 这 
样 的 分 析 能 力 格外 重要 ， 才 能 确保 每 次 放水 都 能 充分 运用 ， 既 避免 不 必 
要 的 浪费 ， 也 提高 总 发 电量 。 
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延伸 应 用 


能 源 产 业 正 遭 着 前 所 未 有 的 变革 ， 包 括 整 建 智慧 电网 、 增 加 再 生 能 
源 、 提 高 发 电 效率 等 , 挑战 着 企业 处 理 大 数据 的 能 力 。 上 述 案例 中 ,SCE 通 
过 推动 用 户 安装 智慧 电表 促成 自发 性 节 电 ， 因 而 省 下 一 个 发 电厂 的 发 电 
fit. SCE 服务 500 万 用 户 ， 和 台湾 电力 公司 的 用 户 规模 差不多 ， 再 加 上 
中 国 台 湾 省 平均 每 人 每 年 用 电量 高 居 亚 洲 第 一 ， 电 力 公司 若 采用 智慧 电 
表 ， 应 该 也 能 创造 可 观 的 节能 效果 。 

另外 ， 台 湾 地 区 近年 来 积极 发 展 再 生 能 源 产业 ， 省 内 也 已 建立 不 少 
风力 和 水 力 发 电 的 设施 ， 如 果 能 在 现 有 基础 上 加 强 数据 分 析 的 能 力 ， 应 
有 助 于 提升 再 生 能 源 对 整体 发 电量 的 贡献 度 。 璧 如 ， 沿 海地 带 虽 有 强劲 
的 气流 和 季风 吹 获 ,但 由 于 气候 潮湿 易 造成 机 件 腐蚀 ， 可 能 影响 机 组 寿 
命 。Vestas 参考 全 球 气象 数据 和 已 架设 机 组 运作 信息 来 选 址 的 方式 , 或 可 
作为 参考 。 

除了 这 几 家 公司 的 经 验 以 外 ， 能 源 产业 还 能 从 以 下 几 个 方面 运用 大 
数据 分 析 。 


O 整合 移动 数据 : 移动 设备 日 益 普 及 ,消费 者 也 会 用 手机 或 平板 装 
置 支付 水 电费 、 查 询 账单 信息 ， 或 在 社交 网 站 上 询问 附近 邻里 的 
停电 信息 。 电 力 公司 可 分 析 消费 者 在 网 站 上 的 活动 模式 和 意见 ， 
进而 发 展 出 更 符合 用 户 需 求 的 服务 ， 并 推动 节能 减 排 措施 。 
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O 链接 恒温 控制 器 数据 ;在 寒带 国家 ， 恒 温 控制 器 是 家 中 很 普遍 的 
设备 。 智 能 型 的 恒温 器 就 像 智 慧 电表 一 样 ， 可 以 频繁 记录 和 传输 
用 户 家 中 因 调 节 温 度 所 耗 用 的 电量 ， 每 一 台 一 个 月 会 产生 好 几 万 
条 记录 ， 善 加 利用 的 话 ， 也 有 助 于 电力 公司 调节 用 电 ， 并 鼓励 用 
户 改变 用 电 习 惯 。 

O 研究 电动 汽车 车 主 充电 习惯 : 在 电动 汽车 较为 普及 的 地 区 ， 车主 
若 都 在 同样 的 时 段 充 电 ， 用 电量 会 瞬间 禹 高 ， 容 易 导 致 区 域 电 网 
负载 过 重 。 通 过 追踪 和 分 析 车 主 的 充电 习惯 ,电力 公司 可 了 解 哪 
些 时 段 供电 比较 吃紧 ， 并 鼓励 用 户 在 非 高 峰 时 段 充电 。 
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SQ 期 五 晚上 7 点，Kelly 和 姊妹 淘 去 最 喜欢 的 意大利 餐厅 吃饭 ， 慰 
< 劳 自己 一 周 的 辛劳 - 

餐厅 人 多 ， 服 务 生 忙 不 过 来 ， 在 等 候 带 位 的 时 间 里 ， 两 人 拿 起 手机 
玩 起 互 拍 照片 。 几 分 钟 后 ，Kelly 选 了 张 满意 的 照片 ， 连 上 中 华电 信 的 移 
动 3G 网 络 ， 正 打算 更 新 Facebook 上 的 大 头 照 时 ， 看 到 新 消息 却 忍 不 住 
TE: ET! 我 老板 两 分 钟 前 才 在 这 家 餐厅 打卡 !” 

UTA, Kelly 的 朋友 知道 ， 她 老板 是 在 Facebook 上 标示 他 所 在 
的 位 置 ， 现 在 人 应 该 就 在 餐厅 里 享用 大 餐 。 但 若 时 间 倒转 回 5 年 前 ， 她 
们 恐怕 会 觉得 莫名 其 妙 ,“ 打 卡 "， 不 是 在 打卡 钟 上 刷卡 ， 记 录 上 下 班 时 
间 吗 ? Kelly 的 上 司 又 不 在 餐厅 上 班 ， 为 什么 要 打卡 ? 

短 短 几 年 间 有 这 么 大 的 改变 ， 最 主要 的 原因 就 是 移动 设备 ， 尤 其 是 
智能 手机 的 普及 。 依 据 联 合 国 国际 电信 联盟 (ITU ) 的 预测 ，2011 年 时 ， 
全 球 使 用 中 的 智能 手机 已 经 超过 5 亿 部 ， 到 2015 年 时 则 会 增加 到 20 亿 ， 
等 于 几乎 每 3 个 人 就 有 一 部 。 通 信 技 术 的 进步 虽然 带 来 许多 便利 ， 随 时 
就 能 拍照 上 传 到 网 络 上 或 分 享 实时 动态 ， 但 由 于 移动 设备 会 发 送 大 量 上 
网 记录 ( 像 智能 手机 的 数据 传输 量 就 高 达 普 通 手机 的 20 几 倍 )， 电 信 企 
业 的 系统 数据 流量 也 呈现 空前 增长 。 

其 实 ， 电 信 公 司 的 营运 过 程 中 本 来 就 会 产生 很 多 数据 ， 例 如 ， 每 通 
电话 都 会 产生 一 个 通话 记录 (call detail record，CDR )， 其 中 涵盖 的 数据 
有 拨 出 端的 电话 号 码 、 接 听 端 的 电话 号 码 、 通 话 开始 、 结 束 和 持续 时 间 
等 。 不 过 现在 因为 移动 设备 普及 ，3G 上 网 用 户 大 量 涌现 , 导致 CDR ( 包 
括 语音 和 数据 传输 ) 数据 量 更 是 以 等 比 倍数 暴 增 。 








电信 : 庞大 的 通信 数据 就 是 宝山 
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以 中 国 一 家 数 千 万 用 户 的 电信 公司 为 例 , 其 CDR 数据 每 天 新 增 约 5 一 
8 TB， 如 果 以 一 张 容量 700MB 的 CD-R 光盘 存放 ， 等 于 每 天 增加 7500 到 
12000 张 光 稚 ， 从 上 到 下 一 张 张 迭 起 来 更 是 有 9 一 15 米 高 。 其 中 , 语音 数 
据 超 过 100 GB 、 短 信 数 据 100 一 200 GB 、GPRS 数据 48 GB，3G 数据 约 
300 GB。 这 些 数据 都 必须 完整 地 保存 和 处 理 ， 电 信 公 司 才能 准确 地 计 费 ， 
但 这 已 经 对 系统 造成 相当 大 的 负担 。 

更 何况 未 来 还 会 出 现 比 3G 数据 性 能 更 高 的 无 线 宽带 网 络 ， 如 LTE 
(Long-term Evolution, 3G 过 渡 到 4G 网 络 的 一 种 技术 标准 ) 和 4G 等, 让 
移动 用 户 可 以 传送 更 大 量 、 种 类 更 多 的 数据 ; 每 种 数据 的 传输 不 仅 更 实 
时 ， 还 有 个 别 不 同 的 服务 需求 ， 数 据 “ 大 、 杂 、 快 、 疑 ”的 挑战 势必 又 
将 加 剧 。 国 际 组 织 UMTS Forum 便 预 计 ，2020 年 全 球 每 年 的 无 线 网 络 数 
据 流量 将 达到 127 EB, EIEEE 2010 年 时 高 出 33 倍 。 

浩瀚 庞杂 的 数据 虽然 令 电 信 企 业 疲 于 应 对 ， 却 是 藏 有 用 户 习 惯 和 营 
运 情报 的 宝山 。 营 销 学 上 有 人 句 老 话 “ 若 失去 一 个 客户 ， 之 后 想 要 把 客户 
找 回来 ， 就 必须 得 花费 6 倍 的 成 本 "。 对 当今 的 电信 企业 来 说 ， 这 个 论点 
的 真实 性 恐怕 更 甚 以往 。 因 为 电信 公司 的 用 户 流失 率 (churn rate ) 每 升 
高 1%， 利 润 就 可 能 暴跌 几 百 万 美元 ;如 果 失去 的 是 每 用 户 平均 收入 
( Average Revenue Per User, ARPU ) 较 高 的 用 户 , 损失 又 更 为 惊人 。 所 以 ， 
企业 无 不 绞 尽 脑汁 留 住 顾客 ， 为 此 ， 也 已 经 开始 把 眼光 放 在 大 数据 分 析 
的 潜在 效益 上 了 。 

在 一 份 台湾 企业 IT 部 门 主管 (CIO ) 的 调查 中 ， 研 究 人 员 发 现 ， 电 
信 业 的 客户 几乎 都 是 一 般 消费 者 ， 所 以 挖掘 数据 价值 特别 重要 。 因 此 ， 
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电信 公司 最 希望 能 从 大 数据 中 挖 出 各 种 有 价值 的 信息 ， 以 辅助 营销 策略 
的 规划 ， 进 而 达到 提升 企业 竞争 力 的 目的 ( 见 图 9-1 )。 


图 9-1 电信 业已 将 目光 转向 庞大 的 数据 


面临 大 数据 的 挑战 ， 电 信 业 IT 部 门 未 来 的 规划 方向 (多 选 ) 
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研发 挖掘 营销 整合 寻求 业务 没有 
新 产品 ”数据 价值 研究 。 内 部 资源 合作 对 象 AR 安排 


数据 来 源 ，CIO IT 经 理 人 杂志 与 CIO 协 进 会 ，(2012 CIO IT 决策 者 关键 调查 》 


现在 消费 者 越 来 越 精打细算 ， 又 很 容易 就 能 携 款 投向 对 手 怀 抱 。 对 
电信 企业 来 说 ， 客 源 就 是 财源 ， 大 数据 分 析 则 是 那 把 开启 财源 的 密 钥 。 
以 一 家 名 列 《财富 》1000 38 (Fortune 1000) 的 电信 公司 为 例 ， 只 要 能 
把 现 有 可 分 析 数 据 的 比例 拉 高 10%， 就 可 能 增加 96 亿美 元 的 营 收 ( 见 
图 9-2 )。 如 果 把 这 笔 钱 再 投资 在 扩充 营运 上 ， 足 足 可 多 雇用 近 11.5 万 个 
营运 分 析 人 员 ， 或 新 建 6 万 多 个 基站 ， 这 都 有 助 于 改善 服务 质量 ， 进 一 
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步 巩 固 市 场 竞争 利 基 。 
图 9-2- 数据 分 析 与 电信 公司 的 效益 


多 分 析 10% 的 数据 ， 大 型 电信 公司 可 增加 96 亿美 元 的 营 收 
新 就 业 机 会 其 他 潜在 价值 


am iiit A 
N = 114825 x 64000 


作业 研究 员 座 基 站 








数据 来 源 : Sybase 


提高 客户 续 约 率 


中 国联 通 是 中 国 第 二 大 电信 商 ， 也 是 中 国 唯一 一 家 同时 在 纽约 、 香 
港 和 上 海 3 地 上 市 的 电信 公司 。 该 公司 的 3G 网 络 广泛 覆盖 县 级 以 上 城市 ， 
并 且 拥 有 全 球 规模 最 大 的 WCDMA 网 络 。2010 年 底 时 ， 这 家 公司 的 用 户 
数 已 突破 3.1 亿 ， 其 中 手机 用 户 便 超 过 1.67 亿 ; 无 论 在 市 值 和 用 户 规模 
上 ， 中 国联 通 都 名 列 全 世界 电信 产业 的 前 列 。 

尽管 拥有 傲 人 的 记录 , 服务 的 又 是 中 国 这 个 全 球 最 大 的 电信 市 场 ， 
中 国联 通 近 几 年 的 压力 却 有 增 无 减 。 越 来 越 多 的 固 网 通信 用 户 退 租 而 
转向 移动 和 无 线 通 信 , 加 上 中 国 每 个 月 有 7000 多 万 个 消费 者 首次 申办 
和 手机， 造成 电信 市 场 区 块 的 变动 加 剧 ， 连 大 公司 也 陷入 艰苦 的 市 场 保 
卫 战 。 
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中 国联 通 的 重庆 分 公司 就 面临 营 收 疲软 和 用 户 ARPU 下 滑 的 困境 。 
究竟 客户 为 什么 离开 ? 哪些 客 群 最 容易 流失 ? 什么 样 的 产品 可 以 留 住 客 
户 ? 客户 想 要 哪些 新 服务 ”中 国联 通 虽 然 一 头 雾 水 ， 但 心里 却 很 明白 ， 
答案 就 在 天 量 的 用 户 数据 中 ! 
中 国联 通 决定 和 IBM 合作 ;发 展 出 一 套 客户 流失 率 分 析 和 营销 管理 ==， 
的 平台 。，-- 般 来 说 ， 电 信用 户 在 退 租 前 会 有 些 迹 象 ， 如 果 能 够 提早 掌握 
到 蛛丝马迹 ， 就 有 机 会 留 住 客人 。 因 此 ， 这 套 平台 广泛 搜集 各 业务 部 门 
的 数据 ， 归 纳 出 许多 会 导致 客户 离开 的 因素 ， 再 比 对 每 位 客户 过 去 一 段 
时 间 内 与 公司 间 互 动 的 模式 和 使 用 行为 ， 以 预测 下 一 个 月 会 退 租 的 几率 。 
OS see 一直 以 来 ”中 国联 通 只 能 粗略 推算 每 个 月 的 客户 流失 率 ; 而 且 也 无 一 二 
法 判断 哪些 客 群 会 流失 最 多 用 户 ， 所 以 很 难 锁定 特定 客户 群 的 需求 来 加 
强 服务 。 但 现在 通过 大 量 分 析 CDR 数据 ,已 经 把 预测 流失 率 的 准确 性 提 
高 5 信 以 上 ,营销 人 员 因 此 能 针对 “危险 性 ”最 高 的 用 户 ， 依 据 他 们 个 
别 的 使 用 习惯 提供 更 符合 需求 的 方案 。 
例如 ， 车 一 个 手机 用 户 的 使 用 习惯 是 以 短信 为 主 ， 但 过 去 3 个 月 的 
短信 发 送 次 数 却 逐 月 减少 ， 就 可 能 是 有 心 “ 投 向 敌 营 ”的 高 危险 群 。 等 
营销 人 员 进 一 步 了 解 后 ， 若 发 现 他 采用 的 是 每 条 短信 都 要 计 费 的 方案 ， 
并 不 适合 他 的 使 用 习惯 ， 便 可 建议 客户 选择 短信 和 包月 或 网 内 短信 免费 的 
优惠 方案 ， 以 吸引 他 留 下 来 。 
借 由 精准 的 预测 和 营销 机 制 ， 中 国联 通 重庆 分 公司 的 客户 续 约 率 已 
经 提高 34%。 为 了 进一步 拉 高 收益 ， 营 销 人 员 还 针对 ARPU 较 低 的 客 群 
设计 更 个 性 化 的 增值 服务 和 优惠 方案 :成功 地 把 公司 整体 的 APRU 提高 : 
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10% 、 短 信用 户 增加 13.5%, 2GA 3G 网 络 的 用 户 数 更 是 跃 增 6 倍 。 


增加 资产 使 用 率 


Bharti Infratel ( 巴 提 电 信 基 础 设施 公司 ) 是 印度 电信 龙头 Bharti Airtel 
( 巴 提 电 信 ) 独资 成 立 的 静态 电信 基础 设施 供 货 商 。 电 信 的 静态 基础 设施 
泛 指 支持 电信 网 络 营运 的 各 项 设施 ， 包 括 实体 的 无 线 通信 铁塔 、 机 房 、 
空调 、 发 电机 和 火灾 警报 器 等 。 除 了 静态 基础 设施 外 ， 还 有 动态 基础 设 
施 ; 这 些 则 是 实际 电信 网 络 内 的 设备 ， 如 基本 信号 收发 系统 、 基 站 、 微 
波 设备 和 传输 设备 等 。 

以 往 电信 公司 习惯 自行 经 营 电信 塔 ， 但 这 么 做 的 费用 非常 高 。 研 究 
显示 ， 大 型 电信 商 的 营运 支出 中 ， 有 六 到 七 成 是 花 在 静态 基础 设施 的 架 
设 和 维修 上 。 因 此 ， 国 际 上 已 经 有 一 些 大 型 电信 商 把 电信 塔 和 相关 设施 
转 入 新 成 立 的 子 公司 或 合资 公司 ， 再 把 设备 资源 以 租赁 的 方式 提供 给 同 
行使 用 。 这 种 租赁 业务 在 印度 特别 普遍 ， 因 为 印度 一 些 偏远 地 区 经 济 发 
展 较为 落后 ， 通 信 固 网 的 铺设 率 很 低 ， 但 移动 通信 不 用 挨家 挨户 铺 线 ， 
所 以 需求 增长 非常 快 。 为 了 快速 扩展 移动 网 络 的 覆盖 率 ， 以 及 节省 架设 
电信 塔 的 成 本 ， 已 经 有 超过 八成 的 电信 公司 向 外 租用 电信 塔 。 

Bharti Infratel 的 主要 业务 就 是 提供 电信 塔 的 共享 服务 ， 就 像 “ 包 租 
公 ” 一 样 ， 把 电信 塔 租 给 多 家 大 型 电信 企业 ， 而 这 些 “ 房 客 ”所 服务 的 
用 户 规模 个 个 都 有 好 几 百 万 。 

如 果 你 以 为 包租 公 很 好 当 ， 那 你 就 错 了 。 在 印度 约 40 万 座 电 信 塔 


中 ， 有 超过 3.3 万 座 为 Bharti 所 有 。 每 个 电信 塔 都 有 必要 的 电费 和 营运 支 
出 ， 若 房客 太 少 会 不 甫 成 本 ， 但 房客 太 多 又 会 影响 通信 质量 ;有些 房客 
会 积 欠 房租 、 有 些 会 浪费 电 、 有 些 需 要 修缮 设备 ; 而且， 最 麻烦 的 是 ， 
这 类 大 事 小 事 层出不穷 ， 什么 时 候 发 生根 本 说 不 准 ，Bharti 很 难 掌握 资产 
的 状态 。 

为 了 更 有 效率 地 应 用 资源 ，Bharti 和 IBM 合作 ， 建立 了 一 套 搭配 软 
硬件 的 数据 分 析 和 实时 监控 系统 。 这 套 系统 除了 保存 Bharti 内 部 高 达 
16 TB 的 既 有 数据 ， 每 个 月 新 增 的 0.3 TB 业务 数据 也 能 从 各 业务 部 门 实 
时 收集 和 汇 整 。 

但 这 只 是 第 一 步 ， 数 据 整合 后 还 得 分 析 。 为 了 要 实时 掌控 旗下 电信 
资产 的 状况 ，Bharti 决定 针对 重要 的 营运 面向 订 出 34 个 关键 绩效 指标 
( KPI), 包括 总 营 收 、 营 业 收 入 、 市 场 占有 率 、 客 户 欠 款 金额 、 设 备 正常 
运作 时 间 和 故障 时 间 、 每 个 租户 使 用 的 电费 ， 以 及 “一 塔 一 户 ”( 只 有 一 
家 电信 公司 承租 的 电信 塔 ) 的 数量 。 每 个 KPI 均 有 一 组 默认 的 参数 和 目 
标 值 ， 如 市 占 率 的 参数 可 能 涵盖 营 收市 占 率 、 租 户 市 占 率 和 通信 时 间 市 
占 率 等 。 然 后 ， 系 统 会 自动 把 业务 数据 比 对 相应 的 KPI， 再 以 图 表 呈 现 
结果 ， 若 有 低 于 默认 目标 值 之 处 ， 在 画面 上 还 会 以 红色 显著 标示 。 

借 由 这 个 方式 , Bharti 的 管理 团队 可 以 很 快速 地 掌握 营运 现 况 , 也 能 
及 时 评估 现 阶 段 业 绩 和 年 度 财务 计划 间 的 落差 ， 有 需要 时 ， 还 能 随时 进 
行 不 同 指标 间 的 交叉 分 析 ， 以 从 中 发 据 改 善 的 机 会 。 

SFA, Bharti 能 确实 掌握 每 个 地 区 一 塔 一 户 的 状况 , 以 及 每 家 电信 公 
司 在 各 区 租用 了 哪些 电信 塔 的 数据 ， 由 此 针对 覆盖 率 较 低 的 企业 进行 客 
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制 化 促销 ;假使 附近 有 已 经 “ 客 满 ”的 电信 塔 ， 也 可 说 服 其 中 一 些 租户 
搬入 “住房 率 ” 偏 低 的 电信 塔 。 每 个 租户 使 用 的 电费 也 能 时 时 监控 ， 以 
分 析 租户 较 少 的 电信 塔 是 否 会 拉 高 整体 的 电费 支出 ， 并 拟定 改进 措施 。 

另外 ， 客 户 流失 和 积 欠 租金 一 直 是 营运 上 很 大 的 隐忧 。 现 在 Bharti 可 
持续 追踪 客户 欠 款 的 金额 和 拖欠 的 天 数 ， 当 这 两 项 指标 的 数值 突然 升 高 ， 
可 能 代表 客户 对 服务 的 满意 度 下 滑 ， 而 Bharti 便 能 尽早 介入 和 排除 问题 ， 
降低 客户 流失 的 机 率 ， 或 者 ， 也 可 针对 欠 款 状况 比较 严重 的 客户 提供 协 
助 ， 进 而 减少 坏账 与 提高 现金 流 。 





延伸 应 用 


随 着 电信 网 络 的 带宽 加 大 、 人 性 能 加 强 ， 电 信 企 业 越 来 越 需 要 大 数据 
的 分 析 能 力 。 

中 国联 通 利用 实时 分 析 CDR 数据 ， 预 测 用 户 退 租 意愿 并 规划 营销 方 
案 ， 这 是 电信 业 目 前 比较 普遍 的 数据 分 析 应 用 。 电 信 公 司 还 可 从 通信 数 
据 中 找 出 用 户 群体 里 的 “小 组 核心 成 员 "， 如 一 个 家 庭 里 最 经 常 联系 和 被 
联系 的 人 ， 留 下 这 个 核心 用 户 ， 就 比较 容易 守住 其 他 家 庭 成 员 。 除 此 以 
外 ， 电 信 厂 商 还 可 在 好 几 个 方面 应 用 大 数据 分 析 : 


© 改善 信号 质量 ; 手机 用 户 在 移动 中 通话 时 ， 途 中 会 有 不 同 的 基站 


接收 和 处 理 信号 ， 万 一 某 些 基站 处 理 能 力 不 够 ， 或 恰巧 经 过 信号 
死角 ,就 会 出 现 断 线 或 通话 断断续续 的 状况 。 电 信 公 司 可 分 析 基 
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站 收 讯 的 原始 数据 ， 以 改善 通信 网 路 中 信号 较 弱 的 环节 。 

© 异 业 结盟 ,交叉 销售 : 运用 手机 发 送 的 GPS 位 置 分 析 用 户 的 通勤 
模式 ， 提 供 合作 厂商 的 促销 消息 ， 例 如 ， 针 对 常 在 中 午时 间 经 过 
某 商业 区 的 用 户 ， 以 电子 邮件 或 短信 传送 该 区 域内 餐厅 的 午餐 优 
惠 活动 消息 。 

© 过 滤 垃 圾 和 诈骗 消息 ， 采 用 流 计算 分 析 大 量 短信 ， 实 时 拦截 垃圾 
短信 和 诈骗 消息 ， 以 保护 用 户 权益 。 


云端 时 代 杀 手 级 应 用 : 





A 话说 , “时间 就 是 金钱 "， 对 金融 服务 产业 而 言 ， 不 仅 时 间 是 金 
钱 ， 数 据 也 是 。 例 如 ， 一 般 银 行 在 放款 前 ， 会 先 调查 贷款 人 的 
信用 状况 、 职 业 和 收入 ， 再 决定 是 否 贷款 给 对 方 ; 核准 信用 卡 前 ， 也 会 
依照 送 来 的 申请 书 内 容 和 数据 ， 通 过 各 种 渠道 调查 申请 人 是 否 具备 付款 
能 力 ， 再 判断 是 否 发 卡 。 会 如 此 费心 ， 就 是 因为 每 一 笔 数据 都 可 能 影响 
公司 的 获 利 。 

换言之 ， 银 行 和 投资 机 构 需要 明快 准确 地 处 理 和 解读 大 量 市 场 和 客 
户 交易 信息 ， 以 锁定 交易 商机 ， 因 此 数据 处 理 能 力 向 来 是 产业 中 的 佼佼 
者 。 但 这 几 年 金融 业 的 数据 量变 大 、 增 加 速度 变 快 ， 而 且 ， 非 结构 化 和 
复杂 的 数据 越 来 越 多 。 尤 其 在 2007 到 2012 FARZI “KWR” (the 
Great Recession) 之 后 ， 民 众 对 银行 失去 信心 ,各国 监管 机 构 纷纷 付出 更 
严格 的 规范 ， 要 求 金融 机 构 增加 信息 透明 度 、 加 强 移 核 和 提高 风险 控 管 ， 
使 得 企业 必须 处 理 种 类 更 多 、 来 源 更 多 元 的 数据 。 

例如 ， 美 国联 邦 准备 理事 会 ( 联 准 会 ) 为 了 确保 资金 安全 ， 要 求 大 
型 银行 须 通过 压力 测试 (stress test )， 才 能 配 发 股利 或 购买 库 藏 股 ， 银 行 
每 一 季 就 得 填 120 多 种 不 同 的 表格 ， 以 向 联 准 会 提 报 当 季 资 产 总 和 和 应 
用 状况 ， 都 让 企业 的 数据 管理 能 力 备 受 挑战 。 

但 对 当今 的 金融 机 构 来 说 ， 大 数据 的 分 析 是 未 来 金 脉 所 在 。 举 例 来 
说 ， 流 计算 可 同时 跨越 多 个 市 场 和 国家 、 以 近乎 零 延迟 的 速度 分 析 海 量 
的 交易 与 市 场 数据 ， 并 在 百 万 分 之 一 秒 内 迅速 计算 出 结果 ， 让 投资 银行 
通过 差价 交易 和 业务 风险 分 析 转 亏 为 盈 。 或 者 ， 算 法 交易 (algorithm 
trading ) 把 交易 条 件 写 进 计算 机 程序 ,由 超级 计算 机 监测 市 场 信息 ,一 出 
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现 预定 状况 即 由 计算 机 自动 下 单 买卖 。 这 种 高 频率 的 交易 模式 平均 每 秒 is 
可 过 滤 1270 AWUN FE 0.0001 各 内 根据 设 定 为 客户 提供 交 O 
易 建 议 。 5 

另外 ， 大 数据 分 析 也 可 协助 金融 机 构 减少 不 必要 的 损失 。 还 是 回 到 
信用 卡 的 例子 ， 信 用 卡其 诈 -一 直 是 银行 的 心头 大 患 ， 业 界 数据 显示 ; 次 
刷 和 和 冒 用 等 欺诈 行为 每 年 至 少 造成 发 卡 机 构 和 持 卡 人 高 达 5 亿美 元 的 损 
失 。 在 中 国人 台湾 ， 由 于 “人 金管 会 银行 局 ”规定 ， 持 卡 人 只 要 发 现 信用 卡 


: 有 不 是 自己 消费 的 款项 ， 无 需 举证 ， 由 银行 负担 所 有 的 损失 ， 所 以 ， 为 
2 了 避免 损失 ， 发 卡 机 构 努力 加 强 信用 卡其 诈 的 俩 测 机 制 。 

项 而 ， 传 统 的 机 制 是 使 用 某 些 模板 和 预测 模型 来 关 断 基 诈 的 模式 ， 
只 能 探查 部 分 的 数据 ， 不 够 实时 ， 也 无 法 把 范围 缩小 到 个 别 事物 和 个 人 
的 层级 。 问 题 是 ,现在 诈骗 手法 越 来 越 高 明 ， 常 常 每 儿 个 小 时 、 几 天 或 
几 星期 就 会 出 现 新 的 周期 性 欺诈 模式 ， 如 果 不 能 及 时 获得 可 识别 或 支持 


新 欺诈 检测 的 数据 ,那么 在 银行 发 现 这 些 新 模式 前 恐怕 已 经 发 生 了 一 些 


损失 。 运 用 大 数据 分 析 ， 信 用 卡 公司 可 以 用 更 快 的 速度 分 析 更 多 的 数据 ， 
以 实时 侦 测 和 制止 诈骗 行为 。 

除了 信用 卡 盗 刷 以 外 ， 层 出 不 穷 的 诈 保 、 在 线 交 易 若 诈 和 人 头 账户 
等 诈骗 行为 ， 也 常 造成 重大 损失 。 然 而 ， 过 去 由 于 实时 处 理 大 量 数 据 的 
技术 不 够 成 熟 ， 分 析 的 成 本 非常 高 ,使 得 多 数 企业 仅 运用 不 到 5% 的 可 用 
数据 来 检测 这 些 非法 的 犯罪 活动 。 随 着 大 数据 技术 的 发 展 ， 现 在 金融 机 
构 已 可 用 更 实惠 的 方式 分 析 剩 下 的 95% 数 据 。 


也 因为 这 个 缘故 ， 大 数据 分 析 能 力 极 有 可 能 成 为 决定 企业 竞争 力 的 
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分 水 岭 。 试 想 ， 一 家 只 能 分 析 持 卡 人 5% 事 务 数据 的 公司 ， 和 另 一 家 能 够 
多 分 析 20% 的 数据 的 公司 相 比 ， 哪 一 家 客户 受到 比较 完善 的 保护 、 会 有 
比较 高 的 满意 度 ? 更 何况 在 欺诈 侦 测 外 ， 不 少 金融 机 构 已 经 运用 大 数据 
分 析 了 解 客户 行为 、 改 善 投资 组 合 和 提供 个 性 化 营销 等 ， 一 场 数据 淘金 
战 已 经 开 跑 ， 落 后 者 恐怕 得 付出 惨痛 的 代价 。 


加 快 理赔 速度 


Infinity Property and Casualty Corporation (IPCC ) 是 一 家 汽车 保险 
商 ， 总 部 设 于 美国 亚 拉巴 马 州 ，2003 年 于 美国 纳 斯 达 克 挂 牌 上 市 。IPCC 是 
全 美 前 几 大 的 “标准 ”保险 公司 ， 在 该 公司 的 车 险 业 务 中 ,高 达 8 成 属 
于 非 标准 车 险 。 所 谓 非 标准 车 险 ， 指 的 是 车 主因 属于 高 风险 族群 ， 如 有 
肇事 记录 、 年 龄 过 高 或 投保 车 种 特殊 等 ， 不 符合 “标准 ”车 险 申 请 资格 
而 购买 的 保险 产品 。 

尽管 已 经 坐 稳 非 标 准 保险 市 场 ，IPCC 还 想 进军 标准 保险 服务 领域 ， 
但 这 么 做 等 于 得 和 许多 老字号 的 保险 公司 正面 冲突 ， 对 一 家 2002 年 才 成 
立 、 来 自 南方 小 镇 的 公司 来 说 ， 这 是 一 场 不 小 的 硬仗 。 他 们 知道 ， 自 己 
一 定 要 有 过 人 的 能 力 ， 才 有 机 会 与 全 国 性 的 大 公司 一 较 高 下 。 

因为 这 个 原因 ， 再 加 上 最 近 越 来 越 多 理赔 审核 人 员 向 公司 反映 ， 诈 
领 保险 金 的 案件 似乎 有 增加 的 趋势 ， 所 以 ，IPCC 决定 发 展 世界 级 的 保险 
理赔 处 理 能 力 ， 运 用 一 套 预 测 分 析 机 制 加 强 诈 保 侦 测 ， 提 升 理赔 的 速度 、 
效率 和 准确 度 ， 以 留 住 老 客户 和 吸引 新 客户 - 
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IPCC 原来 的 理赔 审核 机 制 高 度 依赖 人 为 的 判断 和 处 理 时 间 ， 审 核 人 
员 得 仔细 留意 申请 案件 是 否 有 诈 保 迹象 ， 包 括 保 户 是 否 在 提高 保 额 不 久 
后 马上 发 生 事故 ， 或 对 理赔 流程 过 于 熟悉 ， 若 发 现 可 疑案 件 还 得 转 给 其 
他 部 门 进一步 评估 ， 而 导致 理赔 流程 拉 得 很 长 ， 影 响 保 户 满意 度 。 

在 新 的 理赔 系统 中 ，IPCC 仿效 信用 审核 评分 的 方法 ， 也 建立 起 一 套 
专门 评估 理赔 申请 案件 “ 诈 保 率 ”的 评分 机 制 ， 一 旦 发 现 可 能 的 问题 案 
件 ， 系 统 会 按照 事先 设 定 的 业务 规则 ， 把 案件 转 给 负责 调查 的 人 员 。 

例如 ,在 保 户 发 生意 外 的 当下 ， 保 险 业务 会 先 抵达 事故 现场 收集 数 
据 ， 之 后 系统 按照 业务 规则 评估 这 个 理赔 申请 的 诈 保 率 ， 假 使 诈 保 率 超 
过 默认 值 ， 申 请 书 就 会 自动 转 到 理赔 调查 员 的 手 里 。 这 些 调查 员 的 工作 
好 像 警 探 一 样 ， 除 了 要 搜查 保 户 数据 之 外 ， 有 时 还 得 出 动 查访 和 跟 监 埋 
伏 ， 时 间 拖 得 越 长 证 据 就 越 不 容易 取得 。 以 前 可 疑 的 案件 往往 需要 一 到 
两 个 月 才能 送 交 调查 , 现在 则 缩短 为 一 到 两 天 , 因此, 这 已 经 让 IPCC 把 
阻止 诈 保 的 成 功率 从 50% 提 高 到 88%. 

为 了 加 快 理赔 处 理 速度 ，IPCC 也 从 收 到 保 户 通报 事故 的 第 一 时 间 着 
手 ， 运 用 演算 模型 ， 在 事件 发 生 当下 就 把 理赔 申请 按 不 同 处 理 和 评估 需 
求 分 门 别 类 ， 让 有 问题 的 案件 可 以 尽早 被 调查 ， 而 且 ， 不 需要 调查 的 案 - 
件 也 可 立刻 获得 给 付 。 通 过 这 样 的 方式 ， 该 公司 在 第 一 时 间 就 能 排除 
25% 需 要 后 续 调查 的 案件 ， 省 下 不 少 案件 往来 的 时 间 和 费用 。 

另外 ，IPCC 还 采用 文本 挖掘 (text mining) 技术 ,分 析 警 方 对 交通 
事故 的 调查 报告 、 伤 者 医疗 记录 和 其 他 文件 中 的 内 容 ， 检 查 描述 上 有 何 
矛盾 或 可 疑 之 处 ,以 找到 诈 保 的 蛛丝马迹 。 例如, 医疗 报告 中 若 出 现 “ 药 
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物 ” 等 关键 词 时 ， 可 能 和 事故 中 驾驶 人 的 精神 状态 有 关 ， 系 统 便 会 启动 
警示 提醒 审核 人 员 注意 ， 大 幅 提高 理赔 的 审理 速度 和 准确 度 。 


同 理 心 营销 


做 营销 的 人 都 知道 , 朋友 推荐 比 广告 有 用 多 了 。 到底 多 有 用 ? AC 尼 
尔 森 的 研究 显示 ， 同 样 的 一 则 营销 消息 放 在 Facebook 上 ， 因 为 朋友 的 推 
荐 ,网 友 的 点 击 率 会 增加 16%， 可 见 同 傍 之 间 的 影响 力 有 多 大 。 

中 国 一 家 国有 银行 就 想 把 这 种 同 傍 间 彼此 认同 的 拉力 转 为 品牌 的 吸 
力 。 第 一 步 先 从 网 络 银行 开始 ,在 IBM 中 国 研 究 院 的 协助 下 ， 发 展 出 一 
套 业 界 首 创 (first of a kind，FOAK ) 的 方案 ,按照 网 银 客户 亲朋 好 友 的 
投资 动态 来 提供 产品 建议 ， 以 帮助 他 们 找到 更 多 投资 机 会 。 

IBM 研究 人 员 说 这 项 技术 运用 的 是 人 类 的 “社交 同 理 心 ”但 要 激 起 
客户 的 同 理 心 ， 前 提 是 得 先 了 解 他 们 的 社交 模式 。 因 此 ， 系 统 先 从 银行 
各 个 经 销 渠 道 收 集 客户 的 个 人 身份 ( 如 年 龄 、 性 别 和 婚姻 状态 ) 和 事务 
数据 ( 如 存款 和 投资 金额 )， 经 过 清理 和 汇 整 后 进行 深入 的 分 析 比 对 ， 找 
出 客 群 中 有 哪些 人 属于 同样 的 社交 团 ， 壁 如 是 不 是 互 为 同事 或 同学 ,以 
及 在 不 同 的 圈 圈 中 各 扮演 什么 样 的 角色 ， 如 专家 或 先驱 者 等 。 描 绘 出 客 
户 群 体 之 间 的 关系 后 ， 这 套 方案 会 再 分 析 客 户 近期 的 购买 倾向 ， 以 及 已 
购买 产品 的 绩效 ， 以 辅助 营销 。 

你 可 能 正在 想 ， 万 一 有 人 就 是 没什么 朋友 ， 根 本 组 不 成 社交 圈 怎 么 
办 ?这 一 点 完全 不 成 问题 ， 因 为 一 般 人 不 仅 会 听 亲 朋 好 友 的 建议 ， 如 果 
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和 自己 条 件 相仿 的 人 有 成 功 的 经 验 ， 我 们 也 会 想 要 “ 见 贤 思 齐 "， 所 以 : ze 
le eB) ARS, oe ee ER 
o i. 或 事务 数据 有 相同 结 结构 的 人 8 E = ae Saag a 
See ee ee ee : 
时 间 ; 也 不 懂 理财 ， 所 以 只 把 钱 放 在 银行 存款 - AR, RT 
” 银 的 这 套 系统 ， 系 统 显示 跟 他 收入 水 平和 背景 相近 的 人 最 近 的 资产 配置 
状态 和 投资 报酬 。 看 过 分 析 后 ， 他 发 现 ， 懂 得 投资 的 人 多 半 只 把 一 部 分 
的 钱 存 起 来 ， 秋 下 的 则 投资 在 投票、 债券 和 共同 基金 等 报酬 率 较 高 的 产 — 
Bib. AERIAL -该 不 该 也 调整 自己 的 理财 万 法 他 在 网 上 找到 














款 超过 50 万 人 民 币 者 为 ViP 客户 -这 样 的 分 法 不 够 细致 BLN 
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心 。 进 而 鼓励 客户 购买 更 多 金融 产品 ， 加 强 客户 对 品牌 的 认同 度 .一 


选择 分 行 地 点 
开店 做 生意 的 人 都 知道 ,选择 店面 最 重要 的 是 “地 点 、 地 点 、 地 点 1” 


地 点 选 得 好 ， 人 潮 容 易 聚 集 ， 人 潮 多 了 ， 钱 潮 自然 滚滚 来 。 如 果 只 在 一 
个 地 方 做 做 小 生意 ， 选 个 好 地 点 应 该 不 算 太 难 ， 但 如 果 你 得 在 中 国 这 个 
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这 就 是 中 国 一 家 国营 银行 面临 的 难题 。 这 家 公司 成 立 已 经 超过 20 年 
了 ,在 全 中 国有 一 万 多 家 分 行 ， 名 声 非常 响亮 ,但 由 于 中 国都 市 化 快速 
发 展 ， 各 地 帘 起 许多 新 兴 都 市 和 卫星 城市 ， 大 型 银行 也 得 快速 拓 点 卡 位 。 

该 在 哪里 开 分 行 ? 总 不 能 跟着 麦当劳 走 吧 ! 在 理想 状态 下 ， 银 行 分 
行 所 在 位 置 和 所 提供 的 服务 必须 符合 当地 经 济 发 展 和 客户 对 金融 服务 的 
需求 ， 才 能 创造 最 佳 的 业绩 。 但 中 国 那么 大 ， 都 市 众多 ， 单 单 以 江苏 古 
城 苏 州 市 这 个 “二 级 ”城市 为 例 ， 就 足 足 有 30 个 台北 市 那么 大 ， 人 口 超 
过 1000 万 。 撤 开 北京 、 上 海 和 广州 等 一 线 城市 不 说 ， 和 苏州 同属 二 级 的 
城市 还 有 200 多 个 ， 另 外 还 有 近 400 个 三 级 城市 ， 每 个 市 场 的 需求 都 不 
一 样 ， 因 此 ， 分 行 据点 和 服务 内 容 的 规划 真 的 是 门 大 学 问 。 

虽然 各 地 市 场 特性 不 同 ， 但 这 家 银行 认为 应 该 可 以 采用 系统 化 的 方 
法 选择 分 行 地 点 。2006 年 时 ， 他 们 找 上 IBM 合作 ， 设 计 出 一 套 分 行 网 络 
优化 的 系统 ， 以 锁定 最 适合 开设 分 行 的 地 点 ， 依 此 支持 新 据点 的 开拓 ， 
或 辅助 既 有 分 行 的 搬迁 决策 。 

这 套 系统 采用 营运 研究 和 管理 科学 的 技术 ， 发 展 出 一 套 评估 市 场 商 
机 和 分 行业 绩 的 量化 机 制 ， 而 能 依据 一 地 的 地 理 和 和 人口 数据 预测 当地 需 
要 哪些 类 型 的 金融 服务 ， 以 及 可 能 为 银行 带 来 多 少 业 绩 ， 再 从 中 选 出 高 
商机 的 市 场 区 块 和 适当 的 地 点 。 

根据 Forrester Research 的 研究 ，43% 的 人 和 30% 的 小 公司 会 依照 地 
利之 便 选 择 往来 的 银行 。 不 过 ， 地 点 虽然 重要 ， 但 建筑 物 的 租金 、 设 备 
的 费用 、 人 事 的 成 本 等 等 也 会 影响 到 一 个 分 行 能 不 能 赚钱 。 因 此 ， 这 套 
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系统 还 考虑 银行 实际 的 管理 要 求 ， 如 最 低 投资 回报 率 、 人 事 成 本 规划 等 ， 
把 这 些 信息 和 潜在 据点 的 条 件 配对 分 析 ， 进 而 决定 最 佳 设 行 地 点 ， 以 及 
业务 和 人 员 职 能 的 组 合 。 

2009 年 起 ,这 家 银行 开始 推广 这 套 分 析 机 制 , 到 2011 年 中 , 大 约 已 
经 完成 100 个 城市 的 据点 调整 或 设 点 的 工作 。 该 公司 估计 ， 通 过 选择 最 
佳 的 营运 地 点 ， 像 苏州 这 种 规模 的 城市 ， 客 户 存款 额 就 可 提高 700 万 元 。 

苏州 只 是 一 个 例子 , 如 果 每 个 都 市 内 的 业绩 都 能 创造 类 似 成 效 的 话 ， 
总 体 效 益 非常 局 人。 此外， 有 了 这 样 一 套 以 量化 方法 评估 设 点 效益 的 机 
制 ， 这 家 银行 可 更 快速 和 精细 地 检讨 设 点 的 成 本 和 潜在 商机 ， 一 来 可 以 
避免 因 选 错 地 点 而 导致 分 行业 绩 不 佳 ， 二 来 也 能 加 快 拓 点 速度 ， 在 开拓 
新 市 场 时 比 对 手 更 具 优势 。 


节省 营销 成 本 


“先生 您 好 , 您 是 本 行 的 优质 客户 , 我 们 现在 推出 超 优惠 的 信用 贷款 ， 
不 知道 您 有 资金 需求 吗 ? ”很 多 人 都 接 到 过 银行 这 类 的 营销 电话 ， 有 时 
候 ， 同 一 家 银行 甚至 会 打 好 几 次 电话 推销 不 同 的 产品 。 

银行 电话 营销 如 此 泛滥 ， 当 然 和 这 几 年 市 场 竞争 加 剧 ， 企 业 急 着 抢 
客户 有 关 ， 但 最 令 消费 者 不 堪 其 扰 的 是 ， 营 销 消息 太 密集 、 促 销 的 产品 
又 引 不 起 兴趣 ， 感 觉 银 行 根 本 只 是 在 “ 乱 枪 打 鸟 ”。 

从 一 家 中 型 的 省 级 商业 银行 了 解 到 : 客户 不 想 被 广告 又 炸 。 如 果 不 
能 精确 地 锁定 营销 活动 的 对 象 ， 不 仅 会 浪费 营销 资源 ， 更 可 怕 的 是 , 还 


可 能 会 气 走 客户 。 过 去 ， 该 公司 的 营销 人 员 只 和 赁 经 验 推断 促销 活动 该 锁 
定 哪些 顾客 ( 如 某 张 信用 卡 年 费 较 高 ， 所 以 适合 年 收入 较 高 的 白领 工作 
者 使 用 ) 但是, 一 家 银行 有 几 十 种 产品 , 还 可 搭配 组 成 组 合 型 方案 ( 如 
房贷 搭配 火险 ， 或 存款 户 专属 的 理财 型 信贷 等 )， 人 的 经 验 和 判断 毕竟 有 
其 局 限 ， 这 种 方法 不 够 有 效率 ， 也 很 难 评估 营销 成 果 。 

于 是 ， 这 家 银行 导入 一 个 数据 仓库 和 大 数据 分 析 的 平台 。 这 个 平台 
会 从 银行 各 业务 系统 和 销售 渠道 收集 数据 ， 把 管理 存放 款 和 汇兑 等 关键 
业务 的 核心 系统 、 财 务 管理 、 信 用 卡 、 电 话 服务 中 心 等 系统 的 数据 都 整 
合 起 来 。 因 此 ， 营 销 人 员 促销 时 可 以 统一 筛选 目标 客户 ， 不 必 再 像 以 前 
一 样 追 着 各 部 门 要 顾客 名 单 ， 而 且 ， 更 重要 的 是 ， 通 过 分 析 ， 他 们 还 能 
精准 地 执行 营销 的 “P-D-C-A” 循 环 。 

“P-D-C-A” 循 环 由 美国 著名 的 管理 学 家 戴 明 ( William Edwards 
Deming) 所 提倡 ，4 个 字母 分 别 代表 管理 的 4 个 阶段 : P 是 计划 (plan ), 
D 是 执行 (do )，C 是 查核 ( check )，A 是 行动 ( act )。 戴 明 认为 ， 企 业 若 
确实 执行 这 4 个 步骤 ， 就 能 持续 从 错误 中 学 习 而 创造 巨大 效益 。 

这 家 银行 把 “P-D-C-A” 循 环 运用 在 营销 管理 上 。 

PRD: 在 规划 营销 活动 的 阶段 ， 营 销 人 员 可 在 系统 上 设 定 欲 锁定 族 
群 的 条 件 ， 例 如 ， 针 对 新 的 悠游 联名 卡 ， 目 标 客 群 条 件 为 从 未 向 该 行 申 
请 过 信用 卡 、 每 个 月 存 提 款 超过 10 次 、 常 用 ATM 进行 小 额 提 款 ， 且 风 
险 度 为 中 级 以 下 的 20 一 30 岁 顾 客 。 

在 最 短 数 十 秒 内 ， 系 统 就 可 找到 出 符合 条 件 的 客户 ， 并 估算 他 们 可 
能 为 银行 带 入 多 少 营 收 ， 还 能 根据 他 们 过 去 的 营 收 贡 献 度 和 “可 营销 性 ” 
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排出 优先 级 ， 以 促成 营销 资源 最 有 效 的 运用 。 此 外 ,营销 人 员 还 可 改动 
设 定 的 条 件 ， 比 较 不 同 设计 的 潜在 成 效 ， 再 选择 效益 最 高 的 方案 。 

C&A: 平台 会 从 每 一 个 销售 渠道 收集 结果 ， 让 营销 人 员 随 时 掌握 活 
动 执行 的 状态 及 客户 的 意见 ， 一 旦 发 现成 果 不 如 预期 ， 也 能 及 时 调整 活 
动 内 容 ， 加 强 营销 效益 

借 由 事前 分 析 找 出 潜在 效益 最 高 的 方案 ,该 公司 预计 可 将 规划 和 执 
行 促销 的 成 本 降低 10%。 另 外， 由 于 可 以 更 精确 划分 目标 客户 群 ， 尽 可 
能 让 每 一 通 营销 电话 、 每 一 封 BM 都 “正中 红心 ”， 客 户 对 营销 活动 的 响 
应 率 也 可 提高 60%， 不 仅 如 此 ， 丰 适合 或 没有 意愿 的 人 会 被 过 滤 掉 ， 吉 
免 造成 客户 困扰 ， 进 而 提高 整体 客户 的 满意 度 s 


延伸 应 用 


金融 产业 的 顾客 要 求 越 来 越 高 ， 忠 诚 度 却 越 来 越 低 -再 加 二 发 达 国 
家 增长 趋 缓 ， 各 国企 业 纷纷 抢 进 新 兴 市 场 ， 金 融 产业 现在 得 面 对 来 自 四 
面 八方 的 竞争 对 手 、 目 益 严 格 的 法 规 限 制 ， 以 及 更 多 样 化 的 客户 要 求 ， 
也 因此 ， 企 业 更 需要 从 大 数据 中 找 出 有 用 的 信息 ， 以 加 强 市 场 区 隔 力 。 

很 多 公司 从 改善 客户 服务 下 手 ， 上 述 4 个 案例 虽然 主要 的 着 眼 点 不 - 
同 ， 但 最 终 的 效益 或 多 或 少 都 有 助 玉 提 高 客户 服务 的 质量 。 以 分 行 设 点 
来 说 ,银行 若 地 点 选 得 好 、 又 能 提供 民众 所 需 的 业务 项 有 年, 顾客 办 起 事 
来 更 便利 ， 就 不 必 再 为 了 同一 件 事 跑 好 几 家 银行 。 

除了 本 文 所 介绍 的 此 个 案例 之 处， 金融 服务 产业 还 可 在 几 个 领域 使 
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-o 生命 周期 营销 ， 从 事务 数据 中 发 所 客户 生活 中 的 转变 ， 如 : 更 换 一 
ik MIRC RMD. 以 提供 更 切合 需求 的 产品 和 服务 。- 
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造 业经 常 是 带动 一 个 社会 发 展 转型 的 火车 头 ， 也 是 经 济 增长 和 

市 就 业 市 场 的 中 流 厂 柱 。 在 成 本 较 低 的 新 兴国 家 生产 力 跃进 之 下 ， 
制造 业 早已 成 为 全 球 性 的 产业 ， 但 近年 来 由 于 资 通 科技 发 过 和 贸易 障碍 
减少 ， 各 生产 地 可 针对 制造 过 程 中 某 些 环节 发 展 专业 能 力 ， 厂 商 为 了 节 
省 成 本 ， 跨 国 设计 、 采 购 、 组 装 、 制 造 、 再 制 、 营 销 和 服务 的 生产 网 络 
远 比 过 去 扩散 和 零碎 ， 复 杂 度 更 甚 以 往 。 

举例 来 说 ， 中 国 香港 地 区 的 利 丰 和 集团 旗下 完全 没有 自 有 工厂 ， 却 能 
与 7500 多 家 供应 和 委 外 厂商 合作 ， 为 世界 知名 品牌 和 零售 商 生产 超 
过 80 亿美 元 的 服饰 和 其 他 产品 ， 创 造 出 高 达 120 亿美 元 的 市 值 。 像 
利 丰 一 样 的 公司 越 来 越 多 , 随 着 他 们 所 连结 的 伙伴 网 络 加 大 , 产业 价 
值 链 越 庞大 纷 杂 , 若 要 进一步 提升 生产 力 , 就 必须 设法 善 用 数据 来 加 
强 价值 链 的 效率 。 

所 幸 ， 在 数据 分 析 方面 ， 制 造 业 的 “原料 ”多 得 很 。 麦 肯 锡 全 球 研 
究 院 指出 ， 制 造 业 会 从 生产 机 械 、 供 应 链 管 理 和 商品 监控 系统 等 来 源 收 
集 数字 数据 ， 本 来 就 是 生产 和 储存 数据 的 “大 户 "。2010 年 时 ， 制 造 业 所 
新 增 的 数据 便 将 近 2EB， 如 果 把 这 些 数据 全 印 在 纸 上 ， 装 在 标准 尺寸 
的 4 门 档案 柜 里 ,会 需要 400 亿 个 柜子 才 装 得 下 。 

而 且 ， 随 着 企业 普遍 采用 信息 系统 管理 价值 链 中 的 活动 ， 并 广泛 保 
存 来 自生 产 系统 以 外 的 数据 ， 包 括 计算 机 辅助 设计 、 计 算 机 辅助 工程 和 
生产 开发 管理 协作 系统 等 ， 数 据 量 的 增长 只 会 越 来 越 惊人 。 眼 见 着 大 数 
据 排山倒海 而 来 ， 企 业 也 急 着 想 在 被 淹没 前 站 稳 脚 步 ， 研 究 机 构 IDC 在 
2012 年 中 对 美国 制造 商 所 做 的 调查 显示 ， 认 为 大 数据 的 管理 工具 “非常 
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重要 ”或 “重要 ”的 企业 已 经 超过 半数 。 

制造 业 可 将 大 数据 的 管理 方案 应 用 于 以 下 几 个 领域 (如 图 11-1 所 
示 )， 以 加 强 价值 链 ( 包括 研发 设计 、 供 应 链 管理 、 生 产 、 营 销 与 销售 ， 
以 及 售后 服务 ) 现 有 运作 模 如 下 。 


图 11-1 大 数据 的 3i 新 世界 


供应 链 营销 
与 





O 供应 链 共同 的 设计 和 研发 数据 库 V 

O 客户 数据 汇 整 与 分 析 VA 

O 协作 平台 数据 分 享 v 

O 供需 预测 q! 
O 可 杭 化 管理 生产 

O 营运 数据 分 析 

© 售后 数据 分 析 vy J V 


数据 来 源 ， 妻 肯 锡 全 球 研究 院 


Re Say 


1. 建立 共同 的 跨 部 门 研发 与 产品 设计 数据 库 ， 让 供应 链 中 的 伙伴 同 
步 进 行 产品 与 程序 设计 、 仿 真 和 实验 ， 并 支持 内 部 人 员 与 外 部 伙 
伴 同步 创作 。 

2. 汇总 和 分 析 客 户 数据 ， 提 高 服务 质量 、 发 气 追 加 和 交叉 销售 的 机 
会 ， 并 落实 “价值 设计 ”( design to value )， 即 依照 客户 喜好 和 需 
求 研发 更 具 附加 价值 的 产品 。 

3. 经 过 虚拟 的 协同 合作 平台 采集 和 分 享 数 据 ， 以 推动 “ 众 包 ” 
(crowd sourcing ) 等 创新 措施 .“ 众 包 ”一 词 在 2011 年 刚 被 加 入 
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韦 氏 大 辞典 ， 意 思 是 指 企业 在 社交 网 站 或 在 线 交流 论坛 上 寻求 网 
友 的 创意 和 建议 ， 进 行 产 品 与 服务 创新 。 

4. 建立 需求 预测 和 供应 规划 的 机 制 ， 改 善 生产 、 供 应 和 销售 
管理 。 

5， 导 入 精益 生产 (lean manufacturing )， 并 运用 生产 仿真 的 模型 ， 以 
可 视 化 工具 呈现 生产 瓶颈 ， 提 高 生产 流程 的 能 见 度 。 

6. 分 析 传 感 器 所 采集 到 的 营运 数据 ,以 增加 生产 力 和 进行 大 量 客 
制 化 。 

7. 实时 从 传感器 收集 商品 售后 数据 ， 以 及 客户 对 商品 的 回馈 ,以 辅 
助 售 后 服务 及 侦 测 生产 或 设计 的 瑕 疣 。 


上 述 应 用 可 协助 制造 企业 免除 产品 研发 过 程 中 不 必要 的 重复 ， 及 改 
善 生产 和 组 装 的 流程 ， 以 加 强 整 体 价值 链 的 生产 力 ， 也 可 让 产品 更 符合 
消费 者 的 需求 ， 提 高 产品 的 价值 。 除 此 以 外 ， 企 业 还 可 开发 创新 的 服务 
和 业务 模式 ,提高 竞争 力 。 例 如, BMW 的 ConnectedDrive 概念 车 运用 传 
感 器 科技 ， 能 够 依据 实时 路 况 为 驾驶 提供 行车 方向 的 建议 ， 当 车 上 传 感 
器 侦 测 到 问题 时 ， 也 会 提醒 驾驶 员 维修 ， 并 且 把 车 况 数据 直接 传送 给 维 
修 站 。 

车 把 大 数据 分 析 应 用 效益 化 为 实际 数字 ， 按 照 MGI 的 预 估 ， 有 
的 公司 甚至 可 将 毛利 提高 3 成 , 生产 营运 成 本 还 可 能 减 半 , 如 图 11-2 


所 示 。 
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图 11-2 制造 业 运用 大 数据 分 析 的 效益 


价值 链 环节 大 数据 应 用 领域 (举例 成 本 营 收 
。 同步 工程 设计 © +20%~ 50% 产品 © -20% ~ 50% 上 
开发 成 本 市 时 间 
。 价值 设计 e+309% 毛利 
hf © -25% 产品 开发 成 本 
供应 链 管理 。 供需 预测 2 +2%~ 3% 毛利 


o 分 析 传 感 器 所 采集 的 。 。-10% 一 25% WERE © 最 高 +7% 营 收 
生产 线 数据 
eo 生产 过 程 模拟 与 预测 。 。-10% ~ 50% 组 装 成 本 © +2% Bik 


.分析 传感器 采集 的 © -10%~ 40% EIERE © +10% 年 产量 
数据 ， 改 善 售后 服务 成 本 
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产销 规划 协调 


成 立 于 1945 年 的 海 泰 制 果 ( Haitai Confectionery & Foods Co., Ltd. ) 
是 韩国 第 二 大 饼干 和 糖果 制造 商 ， 总 部 设 于 首尔 。 该 公司 年 营业 额 近 
6000 万 美元 ， 在 韩国 共 设 有 4 家 制造 厂房 ， 雇 用 2400 多 名 员工 。 

面 对 多 变 的 市 场 ， 食 品 制造 商 普遍 运用 销售 和 营运 规划 流程 来 预测 
供需 。 海 泰 制 果 虽 是 老牌 食品 大 厂 ， 却 苦于 无 法 精确 地 掌握 客户 的 需求 
和 销售 量 ， 影 响 销售 和 营运 规划 的 正确 性 ， 导 致 该 公司 常 因 存货 过 多 而 














损失 数 百 万 美元 ， 或 因 低估 需求 ， 生产线 应 对 不 及 而 造成 产品 质量 不 
稳定 。 

为 了 改善 销售 与 营运 规划 ， 海 泰 决定 与 IBM 合作 导入 一 套 商业 智能 
和 分 析 平 台 ， 统 一 整合 和 分 析 海 泰 的 生产 、 物 流 和 销售 的 实时 和 历史 数 
据 ， 并 且 机 动 性 地 追踪 每 笔 订单 和 每 个 销售 点 的 供需 变动 ， 再 分 析 这 些 
不 断 更 新 的 大 量 数据 ， 进 而 预测 哪些 地 区 的 商店 、 在 什么 时 间 点 会 需要 
哪些 商品 。 

由 于 这 套 系统 采用 了 可 在 线 分 析 处 理 数据 ( OLAP ) 的 软件 , 让 海 
泰 从 不 同 角 度 检 查 其 营运 和 销售 数据 ， 还 能 剖析 各 业务 部 门 的 销售 业 
绩 、 客 户 购买 行为 和 业务 趋势 有 何 特定 的 模式 ， 所 以 ， 海 泰 能 够 精准 
地 预测 销售 量 ， 而 且 几 乎 立刻 就 可 随 市 场 需求 和 趋势 的 变动 调整 生产 
规划 。 

举例 来 说 ， 韩 国 虽然 属于 温带 气候 , 四 季 分 明 , 但 是 天 气 变化 很 大 ， 
偶尔 也 有 热浪 袭击 ， 此 时 冰冻 制品 就 会 特别 畅销 。 过 去 海 泰 没 有 分 析 销 
售 量 信息 的 机 制 ， 仅 能 粗略 估算 每 样 商品 的 销售 量 ， 再 依据 估计 排 定 生 
产 和 铺 货 作 业 ， 万 一 出 现 天 气 忽然 变 暖 带动 冰冻 制品 需求 上 扬 时 ， 都 会 
来 不 及 供 货 而 错失 商机 。 现 在 则 不 同 了 ， 海 泰 不 仅 可 以 迅速 发 现 冰冻 制 
品 销量 增加 的 趋势 ， 还 能 够 预测 个 别 销售 点 和 区 域 会 需要 哪些 种 类 的 冰 
冻 制 品 ， 以 及 需要 多 少数 量 。 

除了 分 析 之 外 ， 高 层 主管 还 可 使 用 系统 的 仪表 板 功能 。 因 为 仪表 板 
采用 简单 的 图 表 呈 现 营运 的 重要 面向 ， 所 以 ， 包 括 业 绩 、 生 产 计 划 和 时 
间 、 销 售 和 存货 状态 ， 以 及 销量 预测 等 全 都 一 目 了 然 ， 让 高 层 主管 省 下 
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看 一 张 张 报表 的 麻烦 。 

借 由 这 个 分 析 平 台 ， 海 泰 可 以 确实 追踪 各 销售 点 的 销售 量 .快速 掌 
握 市 场 需 求 的 变动 ， 并 运用 销售 数据 进行 每 日 销量 的 预测 ， 因 此 ， 该 公 
司 销售 预测 的 准确 度 已 提高 7% ， 而 且 ， 存 货 时 间 也 缩短 3 天 ,节省 了 可 
观 的 成 本 。 


全 球 供应 链 管理 


日 本 一 gov a ad I Po MO, 其 中 也 包括 


LED 灯泡 ， 由 于 产品 阵容 庞大 ， ET T, 国内 外 的 供 货 商 
和 业务 伙伴 也 多 = = 

这 家 公司 内 部 没有 集中 的 供应 链 管 理 机 制 ， 包 括 市 场 需求 预测 、 生 
产 线 排 程 和 销售 策略 的 规划 等 ， 一 直 都 是 由 各 个 业务 部 门 和 区 域 分 公司 
独立 执行 。 当 公司 仅 在 日 本 本 地 营运 时 ， 这 种 方法 还 堪 用 ， 但 随 着 营运 
触角 不 断 延 伸 ， 他 们 发 现 供应 链 的 管理 越 来 越 困 难 ， 经 常 出 现 出 货 延 误 
的 状况 。 

供应 链 管理 涵盖 从 供 货 商 到 终端 消费 者 之 间 ， 包 括 采 买 原 物料 到 配 
送 商品 的 所 有 过 程 ， 每 一 个 阶段 都 环 环 相 扣 。 这 家 公司 和 很 多 企业 一 样 ， 
其 供应 链 日 益 全 球 化 和 互相 连 动 ， -即使 是 很 小 的 步骤 和 计算 的 错误 ， 都 


层 ， 也 冲击 公司 的 经 营 绩效 。 


为 了 解决 这 个 问题 ,他们 打算 建立 一 套 全 球 整 合 的 供应 链 管 理 系统 ， 
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“把 采购 ， 生 产 、 销售: 和 
加强 各 生产 线 和 生产 基地 之 间 的 协调 = 
二 他们 找 上 TBM 公司 ,由 IBM 建立 SRI RE. AERAN : 
Be ee es | O 
Der a ee Lae co URE o 
-二 -化 和 天 气 型 态 的 现 况 二 以 及 非 预 期 性 的 事件 或 意外 等 以 模拟 出 可 能 会 a 
-对 供应 链 带 来 什么 样 的 影响 ， 再 用 简单 的 可 视 化 方式 呈现 出 来 ,证 管理 
Bi Rd eR ge an dete oes 
ees be. ct, ei Tier z ; 
例如 ， 依 据 分 析 ， 下 个 月 下 市 场 对 ED 灯光 的 销量 预计 将 加 a 
25%, 散热 模块 和 其 他 部 分 关键 零 部 件 主要 产地 在 中 国 ， 但 有 地 利之 便 的 ; 
中 国 工厂 却 因 连 续 几 个 月 接 到 大 单 ， 生 产 线 已 经 排 得 很 消 ， 如 果 要 等 中 
国生 产 线 空 出 来 ， 不 知道 会 不 会 延误 出 货 ， 后 续 又 会 不 会 影响 到 铺 货 和 二 “一 二 
仓储 的 作业 ? 如 果 到 离 欧洲 市 场 较 近 的 土耳其 生产 ,关键 夫 部 件 的 几 家 
中 国 供 贷 南 有 没有 能 力 在 指定 的 时 间 内 供 筑 ， 如 果 没 办 法 的 活 ， 龙 不 十 
一 应 该 改 向 儿 家 小 -点 的 供 贷 商 采购 > = 一 一 es ae 
_ 该 公司 可 以 模拟 几 种 不 同 的 情境 ， 包 括 :在 中 国生 产 和 备料 会 比 预 
EPRI; 如 果 找到 二 耳 黄 生产 ， 全 部 向 中 国 供 货 商 采 购物 
料 ， 或 者 只 向 中 国 供 货 商 采购 30% 、40% 或 50%， 其 余 比例 则 发 单 给 越 
一 南 的 供 货 商 等 。 ” F g 
“通过 这 种 模拟 的 方式 ,该 公司 可 事先 比较 几 种 情境 对 供应 链 的 影响 ， 
及 最 终 会 带 来 多 少 销售 和 财务 绩效 ， 以 找 出 合理 、 洁 在 效益 最 高 的 排列 
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组 合 ， 避免 因 生产 不 及 而 延误 出 货 。 该 公司 已 经 把 准时 出 货 的 比例 提高 
到 98%， 让 销售 更 有 保障 ， 而 且 ， 由 于 事前 已 评估 最 佳 的 生产 、 销 售 和 
库存 选项 ， 还 能 省 下 各 环节 不 必要 的 浪费 ， 而 强化 财务 表现 。 


延伸 应 用 


当 鸿 海 郭台铭 草 事 长 都 自 叹 已 经 从 “毛利 率 3% 一 4%” 变 成 “毛利 
率 1% 一 2%", -就 表示 连 高 科技 制造 企业 都 再 也 不 能 走 前 价 抢 单 的 回头 
路 。 面 对 成 本 几 近 见 骨 的 微利 趋势 ， 唯 有 更 积极 快速 的 创新 ， 才 能 在 严 
酷 的 竞争 中 存活 ， 甚 至 大 放 异彩 。 

以 大 数据 分 析 为 核心 的 创新 研发 能 力 ， 将 依 关 制造 企业 如 何在 日 益 
艰辛 的 订单 争夺 战 中 脱颖而出 。 研 发 团队 可 通过 大 量 的 意见 回馈 ， 改 善 
测试 的 周期 时 间 、 质 量 和 效率 ， 让 企业 更 快 响应 市 场 ， 抢 得 先 机 。 就 生 
产 制程 面 来 说 ， 实 时 数据 分 析 能 让 生产 线 上 的 各 种 蛛丝马迹 都 纳入 观测 ， 
并 且 不 断 进行 实时 优化 ， 以 减少 重复 错误 所 导致 的 成 本 与 时 间 耗 损 。 若 
能 将 这 项 效益 进一步 扩大 导入 供应 链 的 协同 整合 作业 ， 实 时 聚焦 来 自 上 
中 下 游 的 内 外 部 大 量 数 据 ， 提 升 决策 的 效率 与 质量 ， 也 有 可 能 进一步 提 
升 竞争 力 。 

制造 企业 还 可 于 以 下 几 方 面 应 用 大 数据 分 析 。 


O 预测 分 析 : 广泛 收集 生产 、 销 售 、 研 发 、 存 货 和 运送 过 程 中 的 数 
据 ， 预 测 可 能 发 生 的 风险 事件 ， 以 及 早 防范 和 改善 。 


O 生产 质量 管理 : 增加 生产 活动 各 环节 信息 的 能 见 度 ， 并 发 掘 减少 
浪费 、 事 故 和 环境 污染 的 新 方法 。 

O 整合 生产 排 程 和 经 营 : 运用 机 动 性 的 任务 规划 和 排 程 工具 ， 以 及 
先进 的 模拟 技术 ， 找 出 最 恰当 的 排列 组 合 方式 ， 提 高 整体 的 生产 
效率 和 生产 量 。 

O 生产 能 见 度 和 可 视 化 呈现 :信息 要 让 人 能 够 了 解 和 行动 ， 才 是 有 
用 的 信息 。 现 在 厂商 的 价值 链 散 布 各 地 ， 光 是 管理 厂房 就 已 经 够 
复杂 的 ， 更 何况 还 有 供 货 商 和 经 销 商 等 众多 伙伴 。 若 能 把 繁复 的 
营运 信息 ,包括 人 力 、 系 统 、 存 货 、 生 产 线 等 ， 以 简单 的 图 、 表 
或 指标 的 方式 呈现 ， 管 理 人 员 就 能 及 时 人 掌握 各 环节 的 绩效 ， 并 更 
快速 地 采取 行动 。 
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可 注意 到 “看 电视 ” 变 得 不 一 样 了 ? 
VI 公司 加 班 害 你 错过 晚上 8 点 播 出 的 连续 剧 吗 ? 不 要 紧 ， 你 可 以 
回 家 洗 完 澡 后 再 每 舒 服 服 地 用 计算 机 在 线 收看 或 下 载 收 看 ， 好 在 下 一 集 
播 出 前 赶 上 进度 。 

这 就 是 互 连 消费 (connected consumers ) 的 时 代 。 这 时 代 的 消费 者 有 
三 多 : 内 容 多 、 屏 幕 多 、 频 道 多 ， 他 们 不 再 被 动 “接收 ”信息 ， 而 是 通 
过 各 种 各 样 的 设备 ， 在 想 要 的 时 间 和 地 点 主动 “使 用 ”内 容 。 他 们 所 接 
触 的 信息 和 取得 内 容 的 渠道 远 多 于 以 往 ， 在 电视 、 手 机 、 计 算 机 、 影 音 
播放 器 和 平板 设备 问 不 断 游 移 ， 找 寻 需 要 的 和 喜欢 的 内 容 。 

在 这 样 的 趋势 下 ， 传 统 印刷 和 广电 媒体 的 数量 变 少 ， 影 响 力也 逐渐 
sti. IBM 商业 价值 研究 院 ( IBM Business Value, IBV ) 2011 年 访问 近 
4000 名 消费 者 后 指出 ， 中 国 、 日 本 和 美国 观众 看 电视 的 时 间 已 经 大 大 缩 
短 ， 而 移动 影音 服务 的 使 用 量 相对 增加 。 

面 对 一 心 如 此 多 用 的 消费 者 ， 媒 体 和 娱乐 公司 该 怎样 抓 住 他 们 的 目 
光 ? 又 该 如 何 提供 消费 者 感 兴趣 的 信息 ? 随 着 视听 族群 的 口味 越 来 越 刁 
钻 ， 争 夺 消 费 者 时 间 的 平台 又 越 来 越 多 ，IBV 指出 ， 企 业 必须 走出 过 去 
以 提供 内 容 为 主 的 营运 模式 ， 发 展 出 独 树 一 格 的 价值 。 

要 做 到 这 一 点 ， 他 们 得 从 席卷 而 来 的 数据 狂潮 中 找寻 商业 机 会 ， 并 
愿意 运用 新 发 现 来 驱动 决策 ， 这 样 才 有 机 会 从 消费 者 和 对 手 手 中 抢 回 主 
导 权 ， 但 是 ， 速 度 要 快 ， 否 则 难保 不 会 重 路 音乐 产业 的 覆 缴 。 

在 2010 年 的 一 篇 文章 中 ，CNN Money 将 21 世纪 前 10 年 称 为 “ 音 
乐 失落 的 10 年 "。Forrester Research 也 指出 ，1999 年 的 音乐 零售 总 销售 
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量 为 146 亿美 元 ，2009 年 时 则 已 萎缩 到 66 亿美 元 。 但 事实 上 , 很 多 人 比 
以 前 更 常 听 音乐 ， 音 乐 总 市 值 有 增 无 减 ， 问 题 在 于 商 桃 已 经 从 传统 唱片 
公司 转向 其 他 渠道 。 

图 12-1 随 着 移动 影音 服务 使 用 量 增 加 ， 看 电视 时 间 减 少 


中 国 
73% 


日 本 
美国 33% 
23% 
移动 影音 使 用 最 
减少 看 电视 的 时 间 
23% 2896 


41% 

大 数据 分 析 可 以 帮助 媒体 或 娱乐 公司 改变 营运 模式 ， 在 产业 翻盘 前 
及 时 响应 变动 的 市 场 需 求 。 企 业 可 通过 整合 供应 链 内 各 种 业务 活动 ， 了 
解 业务 数据 被 管理 、 追 踪 和 利用 的 方式 ， 控 制 营 运 的 风险 。 例 如 ， 日 本 
某 电视 台 在 网 络 上 针对 收视 率 高 的 节目 搜索 关键 词 ， 分 析 观 众 的 意见 ， 
研究 观众 感 兴趣 的 主题 和 趋势 ， 作 为 制作 新 节目 的 参考 。 

另 一 个 大 数据 分 析 相 对 普及 的 领域 就 是 职业 运动 ， 这 个 行业 因为 高 
利润 、 高 风险 ， 营 运 不 确定 性 特别 高 ， 所 以 一 些 职业 球 队 开始 采用 先进 
的 分 析 软 件 辅助 决策 。 最 有 名 的 就 是 NBA 的 迈阿密 热火 队 ( Miami Heat ) 
总 教头 Erik Spoelstra, 他 利用 统计 分 析 软 件 拟定 战术 和 排出 上 场 球 员 的 名 
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单 ; 俄 克拉 荷 马 雷霆 队 (Oklahoma City Thunder) 则 靠 分 析 数 据 选拔 新 
球员 。 

大 数据 分 析 还 可 用 来 提升 消费 者 的 视听 体验 。 例 如 ， 不 少 电视 台 已 
经 导入 实时 分 析 的 软件 ， 在 重要 运动 赛事 直播 过 程 中 随时 分 析 选 手 的 表 
现 ， 所 以 ， 当 某 篮球 队 的 控 卫 站 上 罚球 线 ， 每 投 出 一 球 ， 主 播 就 能 分 析 
球 季 到 此 时 此 刻 为 止 他 的 罚球 命中 率 多 少 ， 这 样 的 表现 在 联盟 中 的 排名 
第 几 ， 还 差 多 少 就 能 打 平 历史 纪录 等 。 

另外 ， 为 了 应 对 “三 多 ”视听 族群 跨 平 台 和 跨 频 道 的 消费 习惯 ， 企 
业 还 可 从 大 数据 中 发 气 跨 平台 服务 和 销售 的 机 会 ， 以 增加 收入 或 强化 品 
牌 定位 ， 以 下 温 布尔 登 网 球 公开 赛 的 做 法 就 是 绝 佳 的 案例 。 


深入 实时 的 观 赛 体 验 


温 布尔 登 网 球 公开 赛 ( Wimbledon Tennis Championships ) 是 目前 唯 
一 在 草地 上 举行 的 网 球 锦标 赛 ， 通 常 于 6 月 或 7 月 举办 ， 是 每 年 网 球 大 
满 贯 的 第 3 项 比赛 ， 排 在 澳洲 公开 赛 和 法 国 公 开赛 之 后 ， 以 及 美国 公开 
赛 之 前 。 每 年 在 历时 两 周 的 赛程 中 ,将近 50 万 的 球迷 涌 入 球场 观战 ， 媒 
体 也 从 世界 各 地 蜂拥 而 至 报导 赛况 ， 而 他 们 的 转播 会 通过 129 个 频道 ， 
播送 到 173 个 国家 ， 吸 引 7 亿 多 观众 收看 。 

温 布尔 登 是 网 球 运动 中 历史 最 悠久 和 最 具 声望 的 比赛 ， 当 然 是 收视 
率 的 保证 ， 只 不 过 现在 消费 者 的 选择 太 多 了 ， 不 仅 其 他 体育 节目 想 抢 观 
众 ， 连 娱乐 频道 、 影 音 娱乐 甚至 电玩 等 其 他 平台 也 想来 分 一 杯 美 。 为 了 
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维持 住 品牌 的 光环 ， 并 吸引 更 大 量 更 多 元 的 收视 族群 ， 主 办 单位 全 英 俱 
乐 部 CAM England Club) 希望 能 让 球迷 身 历 其 境地 体验 赛事 ， 而 且 用 更 
活 泌 和 有 趣 的 方法 彼此 互动 和 分 享 意见 。 

IBM 是 温 布 尔 登 网 球 公 开赛 的 官方 科技 顾问 和 赞助 商 ， 从 1990 年 
起 就 协助 全 英 俱乐部 开发 和 管理 信息 系统 , 将 温 布尔 登 公 开赛 打造 成 最 
智能 的 专业 网 球 锦标 赛 。 2011 年 时 . IBM 更 采用 云 技术 把 温 布尔 登 官 方 
网 站 改头换面 ， 不 仅 强化 网 站 的 各 项 功能 ,确保 网 站 可 承载 高 达 上 亿 次 
的 点 阅 率 并 平稳 运作 ， 还 推出 深度 分 析 技 术 提供 实时 赛事 分 析 。 

国际 上 很 多 大 型 运动 赛事 ， 如 世界 杯 足 球赛 和 奥运 等 ， 主 办 单位 
除了 得 筹办 实体 的 比赛 。 还 要 应 付 庞大 的 转播 及 在 线 浏览 需求 。 为 了 
短 短 一 个 月 或 几 周 的 比赛 ， 主 办 单位 就 得 大 手笔 买主 机 、 建 机 房 和 架 
软件 ， 光 是 采购 设备 动 纯 就 要 上 千 万 美元 ， 但 网 站 的 效能 可 能 还 不 怎 
么 样 。 

温 布尔 登 网 球 公开 赛 期 间 ， 大 会 官方 网 站 ( Wimbledon.com ) 每 日 造 
访 人 次 会 暴 增 到 1600 万 , 网 页 浏览 量 更 有 4.5T 亿 次 , 每 天 网 站 要 处 理 的 
信息 安全 事件 最 多 可 能 有 8 万 件 。 采 用 云端 架构 ， 网 站 可 以 机 动 增加 或 
减少 计算 资源 ， 以 弹性 应 对 赛 期 和 非 赛 期 中 不 同 的 浏览 需求 ， 而 不 必 特 
别 为 了 比赛 而 采购 新 的 主机 。 

IBM 提供 给 温 布尔 登 大 会 官网 的 这 套 云 服 务 架构 , 也 同时 支持 其 
他 重要 的 年 度 运动 和 娱乐 盛事 , 包括 另外 3 大 网 球 公开 赛 、 百 老 汇 戏 
剧 大 奖 东 尼 奖 〈 Tony Awards ) 颁奖 典礼 ， 还 有 美国 高 球 公开 赛 (US 
Open Golf ) 和 高 球 名 人 赛 ( The Masters Tournament )。 由 于 这 些 活动 
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在 举办 期 间 网 站 浏览 需求 都 非常 高 , 共享 云 资源 等 于 可 以 创造 出 经 济 
规模 ， 既 能 使 用 最 先进 的 技术 架构 ,又 可 减少 各 主办 单位 投资 和 管理 
的 负担 。 

除了 对 主办 单位 方便 外 ， 当 然 网 站 最 重要 的 还 是 要 能 吸引 球迷 。 进 
入 温 布尔 登 官网 ， 球 迷 可 以 浏览 基本 的 赛程 和 计 分 信息 ， 以 及 了 解 每 位 
球员 的 详细 数据 ， 例 如 ， 在 男子 球员 名 单 中 找到 台湾 著名 网 球 运动 员 卢 
彦 勋 ， 点 入 即 可 看 到 他 历年 的 单 双打 战绩 和 累计 奖金 金额 ;还 可 观赏 在 
线 同步 转播 的 精彩 画面 回放 ， 实 时 了 解 他 的 表现 和 积分 。 

外 行 看 热 闪 ， 内 行 看 门道 ， 但 不 管 是 凑热闹 或 懂 门 道 的 人 ， 大 会 都 
想 为 他 们 创造 更 独一无二 的 体验 。 因 此 ， 球 赛 每 一 场 、 每 一 盘 、 每 一 局 、 
每 一 分 的 数据 都 被 收集 进来 ， 每 个 得 分 都 会 产生 几 种 不 同 的 记录 ， 包 括 
发 球 的 速度 ; 网 前 次 数 、 发 球 犯规 次 数 、 是 反手 或 正 手 拍 回 球 等 。 官 网 
会 实时 收集 和 显示 这 些 数据 ， 转 播 单位 可 以 立刻 用 来 评论 赛 情 ， 教 练 可 
以 分 析 选 手 的 表现 以 实时 调整 对 战 策略 ， 世 界 各 地 的 球迷 则 可 通过 计算 
机 或 智能 手机 的 应 用 程序 追踪 选手 的 表现 。 

在 赛 情 实时 数据 外 ，IBM 事前 还 整理 了 过 去 5 年 大 满 贯 赛 的 资料 ， 
把 总 共 3900 万 条 的 数据 汇 入 数据 仓库 内 ， 再 运用 统计 分 析 工具 ， 预 测 每 
一 个 球员 需要 达到 什么 技术 指标 ， 包 括 接 发 球 点 胜率 、 每 盘 破发 成 功率 、 
网 前 得 分 率 等 ， 才 能 提高 赢 球 率 。 比 赛 进行 间 ， 球 员 在 场 上 的 表现 会 和 
这 些 指标 交叉 比 对 ， 例 如 ， 点 入 男 单 冠 亚军 费德勒 对 莫 瑞 之 战 ， 便 可 看 
到 一 发 进 球 数 、ACE 球 数 、 上 网 得 分 率 等 数据 ( 如 图 12-2 所 示 )， 增 加 
比赛 的 可 看 性 ， 也 可 加 深 球 迷 对 网 球 运动 的 了 解 。 
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温 布尔 登 官 方 网 站 范例 





GENTLEMENS SNGLES - CENTRE COURT 
R. FEDERER v A MURRAY 





2012 年 4 月 ， 带 领 纽约 尼克 队 过 关闭 将 、 掀 起 “ 林 来 疯 ” 热 潮 的 林 
书 豪 因 为 膝 伤 开刀 ， 整 个 季 后 赛 泡汤 。 除 了 球迷 失望 外 ， 最 头痛 的 应 该 
是 尼克 队 和 NBA 联盟 ， 媒 体 评估 ， 少 了 林 书 豪 ， 球 队 和 联盟 将 减少 数 百 
万 美元 的 收入 

一 个 球员 受伤 ， 为 什么 会 造成 这 么 大 的 损失 ? 答案 很 简单 ， 职 业 运 
动 不 仅 是 一 门 运动 ， 其 实 更 是 一 门生 意 ， 而 且 是 很 大 的 生意 。 例如， 纽 
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约 尼克 队 年 营 收 超过 两 亿美 元 , 不 仅 NBA 的 明星 球 队 ， 职 棒 大 联盟 
(MLB ) 顶尖 球 队 每 年 的 营 收 也 在 数 亿美 元 左右 。 但 赚 得 多 ， 花 得 也 不 
少 , 球 队 不 但 要 管理 球场 营运 , 聘请 球员 和 员工 , 还 得 经 营 品牌 和 营销 ， 
样 样 都 得 砸 大 钱 。 万 一 有 球员 受伤 ,特别 是 像 林 书 豪 这 样 的 明星 主力 球 
员 受 伤 时 ,可 能 会 影响 球 队 在 场 上 的 表现 ,以 及 冲击 票房 而 造成 严重 的 
损失 。 

正 因为 如 此 ， 英 国 的 职业 橄榄 球 队 莱 斯 特 老 虎 队 ( Leicester Tigers ) 
想 要 尽 可 能 降低 运动 伤害 发 生 的 概率 。 在 体育 界 ， 英 式 橄榄 球 被 称 为 “ 绅 
士 玩 的 野蛮 运动 "， 它 和 美式 橄 槛 球 不 同 ， 球 员 上 场 不 戴 头 盔 、 肩 甲 和 性 
垫 等 护 具 ， 也 特别 容易 受伤 ， 球 季 中 平均 每 4 人 就 有 一 人 进入 伤 兵 名 单 。 
老虎 队 尽管 战绩 辉煌 ， 曾 经 赢得 9 次 英国 橄榄球 联赛 冠军 及 2 次 欧洲 联 
赛 冠军 ， 但 也 同样 面临 球员 受伤 的 高 风险 。 

每 4 人 就 有 一 人 受伤 , 球 队 损失 恐怕 相当 惨重 , 该 怎么 办 ? 最 好 
的 办 法 就 是 好 好 保护 球员 ， 根 本 别 让 他 们 受伤 。 老 虎 队 采用 IBM 的 
预测 分 析 软 件 ， 通 过 深度 的 分 析 评 估 球 员 的 出 赛 密集 度 、 训 练 量 和 
疲劳 指数 等 ， 当 指数 产生 明显 的 变化 时 ， 就 可 以 提前 预测 运动 员 可 
能 受伤 的 程度 升 高 ， 球 队 即 可 因此 调整 训练 策略 ， 以 降低 球员 受伤 
的 可 能 性 。 

老虎 队 共有 45 个 队员 ， 运 用 这 套 系统 ， 球 队 可 以 更 了 解 对 每 个 
球员 而 言 , 哪个 指数 最 可 以 预测 出 他 们 可 能 受伤 的 程度 。 球员 进行 训 
练 和 练习 赛 时 ， 可 在 肩 腥 骨 间 贴 上 无 线 传感器 测量 压力 和 疲劳 指数 ， 
车 感 测 到 球员 的 疲劳 指数 已 接近 他 可 承受 的 上 限 , 表示 再 继续 下 去 可 


云端 时 代 杀 手 级 应 用 : 








娱乐 : 更 深入 、 EAE e s 


能 造成 运动 伤害 , 教练 便 可 设计 更 个 性 化 的 训练 计划 , 缓解 球员 的 肌 
肉 疲劳 。 

老虎 队 也 可 分 析 哪 些 心理 因素 会 干扰 球员 的 表现 ， 璧 如 客场 比赛 的 
压力 比 主场 大 , 或 者 是 否 有 其 他 社会 或 环境 因素 会 增加 球员 的 心理 压力 ， 
而 导致 他 们 更 容易 受伤 。 了 解 这 些 因素 后 ， 球 队 便 可 设法 对 症 下 药 。 另 
外 ， 老 虎 队 也 把 这 套 分 析 机 制 用 在 19 岁 以 下 的 青年 队 球 队 中 ,衡量 未 来 
生力军 的 压力 和 疲劳 指数 ， 作 为 挑选 老虎 队 正式 球员 的 参考 ， 并 且 找 出 
对 球 队 最 有 利 的 球员 阵容 。 


精准 营销 


成 立 于 1948 年 的 WAZ 媒体 集团 (WAZ Media Group) 是 欧洲 一 家 
大 型 的 媒体 集团 ， 旗 下 有 13 家 媒体 公司 ， 约 有 1.5 万 名 员工 ， 出 版 近 300 种 
刊物 ， 包 括 27 份 报纸 、13 本 周刊 、175 种 消费 和 技术 性 杂志 以 及 99 种 免 
费 报纸 。 

WAZ 是 德国 颇 负 盛名 的 报 业 集团 , 但 这 几 年 印刷 媒体 的 日 子 越 来 
越 难过 了 ， 网 络 上 的 免费 新 闻 随手 可 得 ， 消 费 者 不 愿意 掏 钱 买 报纸 ， 
广告 主 跟着 流失 ， 最 主要 的 财源 广告 收入 也 大 幅 萎缩 。WAZ 认为 必须 
改变 营销 方式 才能 引 读 者 花 钱 订 阅 ， 所 以 ， 该 公司 建立 一 套 客户 关 系 
管理 和 分 析 的 系统 ， 通 过 评估 客户 的 行为 和 喜好 ， 推 出 更 具 针对 性 的 
营销 方案 。 

这 个 方案 采用 和 温 布尔 登 网 球 公 开赛 官网 一 样 的 分 析 软 件 , 当 系 
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客户 的 响应 、 不 同 客户 各 通过 哪些 渠道 响应 、 各 目标 客户 族群 最 容易 收 
到 哪 种 促销 的 吸引 、 哪 种 订 价 方式 能 吸引 到 哪些 客户 。 他 们 还 能 使 用 系 
统 的 演算 模型 分 析 几 种 客户 的 购买 行为 ， 包 括 现在 的 订户 、 过 去 的 订户 ， 
及 曾 买 过 集团 刊物 并 留 有 记录 的 客户 ， 以 预测 这 些 客户 群体 未 来 的 采购 
决定 。 

对 营销 人 员 来 说 ,掌握 这 些 信息 非常 重要 ,因为 WAZ 旗下 有 上 百 种 
刊物 ， 照 理 来 说 ， 买 商业 管理 月 刊 和 买 青少年 潮 报 的 读者 应 该 很 不 一 样 ， 
但 以 前 营销 人 员 只 能 猜测 每 种 刊物 读者 群 大概 的 特性 。 : 

现在 则 不 同 了 ， 他 们 能 按照 常用 的 沟通 渠道 (如 DM 或 电子 邮件 )、 
-年龄 、 性 别 * 婚姻 状态 、 收 入 和 住址 ， 把 客户 分 成 不 同 的 目标 族群 ， 评 

佑 每 种 刊物 读者 的 特色 ， 并 且 比较 不 同 刊物 读者 之 间 有 什么 共同 点 ， 例 

如 ， 某 财经 日 报 和 高 尔 夫 球 杂志 的 订户 群 很 类 似 ， 便 可 针对 这 两 种 刊物 

的 读者 进行 交叉 销售 。 

而 且 ， 他 们 还 可 分 析 退 订 杂 志和 报纸 读者 的 数据 ， 了 解 客 户 不 再 续 

订 的 原因 ， 如 果 发 现 其 中 有 些 共同 的 原因 ， 就 能 加 强 服务 有 类 似 情况 的 
现 有 订户 ,或 提供 更 个 性 化 的 优惠 方案 来 吸引 他 们 续 订 。 通 过 精准 的 预 

测 和 分 析 ，WAZ 可 在 客户 退 订 前 提早 反应 , 已 经 降低 了 客户 流失 率 ， 并 
把 客户 对 促销 方案 的 响应 率 提高 到 比 业界 高 出 三 成 之 多 。 
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延伸 应 用 


随 着 互 连 消费 者 时 代 来 临 ， 媒 体 与 娱乐 企业 必须 师 法 一 般 B2C 
( business-to-consumer， 对 消费 者 提供 商品 或 服务 的 经 营 模式 ) 企业 ,更 
直接 与 消费 者 互动 ， 积 极 寻 求 并 采纳 消费 者 的 想法 才能 成 功 。 

通过 大 数据 分 析 ， 企 业 可 更 精准 地 预测 消费 者 动向 , 如 WAZ 媒体 集 
团 分 析 读 者 退 订 的 原因 以 留 住 客户 ， 也 可 发 现 新 市 场 和 开发 新 产品 及 服 
务 ， 如 温 布尔 登 网 球 公 开赛 在 官网 提供 深入 的 观 赛 体验 ， 或 如 莱 斯 特 老 
虎 队 ， 通 过 分 析 球员 的 身心 状态 ， 提 早 感 测 并 预防 风险 。 

大 数据 分 析 还 能 够 帮助 媒体 与 娱乐 企业 更 有 效 地 管理 信息 ， 在 制定 
决策 、 策 略 和 开发 内 容 时 做 出 更 好 的 预测 ， 并 且 设 定 备 选 方案 的 优先 级 。 
更 明确 地 讲 ， 媒 体 与 娱乐 公司 可 进一步 运用 客户 分 析 : 


© 汇总 产业 生态 体系 中 多 种 内 容 供 货 商 、 合 作 伙伴 及 非 合作 伙伴 平 
台中 的 消费 者 个 性 、 习 惯 及 喜好 优先 级 的 信息 ; 

O 整合 过 去 和 现 有 的 数据 ， 以 提高 客户 分 析 的 使 用 效率 ; 

© 根据 实时 客户 分 析 ， 分 析 客 户 消费 状况 和 广告 活动 之 间 的 关联 ; 

O 针对 各 种 不 同 频道 、 平 台 、 通 路 和 设备 ， 提 供 个 性 化 营销 和 销售 
活动 。 
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2 几 章 中 ， 我 们 介绍 了 大 数据 分 析 的 价值 ， 研 究 人 员 可 以 在 海 
HJ 地 地 震 灾后 实时 锁定 传染 病 疫 区 ， 阻 止 病情 蓝 延 ; 销售 专家 


可 以 重组 商品 排放 在 零售 货架 上 的 位 置 和 售 价 ; 减少 17% 的 存货 ; 开 


采油 井 的 工程 师 可 以 调整 钼 油 的 位 置 和 停机 的 时 间 ; 以 提高 超过 5% 的 
产量 。 

这 些 仅 是 一 小 部 分 的 例子 ， 如 同 我 们 一 再 强调 的 ， 分 析 正 是 化 数据 
为 金 的 关键 ! 

不 过 ， 组 织 中 仍然 存放 了 极 大 量 未 被 运用 的 数据 ， 过 去 由 于 技术 的 
限制 ， 想 要 分 析 这 么 多 的 数据 非常 昂贵 ， 根 本 不 符合 投资 效益 ， 所 以 很 
少 有 企业 或 组 织 做 得 到 或 愿意 做 。 现 在 则 不 同 了 ， 储 存 设备 变 得 更 便宜 ， 
分 析 的 技术 变 得 更 成 熟 和 相对 普及 ， 大 数据 分 析 的 潜在 效益 更 是 无 可 限 
量 一 一 这 个 效益 可 能 不 仅 止 于 创造 差异 化 优势 而 已 ， 甚 至 可 能 完全 其 覆 
产业 运作 的 本 质 ， 开创 出 全 新 的 天 地 。 

看 看 百年 老 店 奇异 ( General Electric, GE) 的 例子 吧 奇异 的 前 身 是 
爱迪生 电灯 公司 ， 创 办 人 正 是 名 闻 遐 途 的 爱迪生 。 有 “交流 电 之 父 " 作 “ 
-开国 元 老 ， 这 个 企业 集团 的 表现 也 算 不 负 所 望 ， 总 产值 就 占 美国 电工 产 
业 产 值 的 1/4。 奇 异 集团 旗下 的 奇异 能 源 (GE Energy.) 在 全 球 50 多 国 设 
有 几 千 台 燃 气 涡轮 机 组 :; 通过 安装 在 机 组 上 的 传感器 ， 每 天 不 停 收 集 机 - 
器 震动 和 温度 变化 的 数据 ， 以 确保 机 组 运作 正常 。 对 他 们 来 说 ， 大 数据 
早已 存在 多 年 ， 绝 非 最 近 几 年 才 出 现 的 新 鲜 事 - val 

不 过 ， 最 大 的 差别 是 ， 他 们 的 储存 和 分 析 计算 能 力 变 强 了 。 

以 前 系统 只 能 存放 3 个 月 的 旧 数 据 ， 以 及 分 析 少 数 几 个 关系 数据 库 
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内 所 储存 的 数据 ， 所 谓 的 “分 析 *， 多 半 只 是 在 数据 库 中 输入 条 件 ， 查 询 
机 组 作业 的 历史 数据 中 是 否 有 类 似 的 情况 ， 好 像 把 数据 库 当成 字典 在 里 
面 查 单字 而 已 ， 但 就 连 这 么 简单 的 作业 都 得 花 上 十 天 半 个 月 。 

现在 则 不 同 了 ， 他 们 建立 新 的 平台 ， 运 用 数据 压缩 和 数据 分 析 技 
R, 工程 师 不 但 能 够 立刻 查询 10 年 前 的 数据 , 还 能 同时 执行 上 百 个 演 
算 程序 ， 从 历史 数据 和 实时 作业 信息 的 交叉 比 对 中 解读 出 意义 ， 以 巴 
测 零 件 是 否 有 故障 的 迹象 在 问题 发 生前 先行 调配 和 修复 。 通 过 这 样 
的 方式 ， 奇 异 能 源 可 以 不 中 断 地 供电 ， 甚 至 不 必 再 因为 年 度 设备 检修 
inner 

奇异 能 源 公司 的 经 验 告诉 我 们 ， 强 大 的 平台 有 助 于 加 强 分 析 能 力 . 
那么 ,什么 是 平台 呢 ?在 信息 的 世界 里 ， 平 台 -( platform ) 泛 指 涵盖 硬件 
和 软件 的 架构 ， 其 中 软件 也 包含 应 用 程序 和 操作 系统 ， 而 软件 (特别 是 
应 用 程序 ) 则 会 在 平台 上 “ 跑 ”( 执行) 数据 。 传 统 上 ， 应 用 程序 和 操作 
系统 会 针对 特定 平台 架构 所 设计 ， 因 此 ， 如 果 要 跑 某 些 应 用 程序 ， 通 党 
就 得 采用 特定 的 平台 才 行 。 

壁 鲍 分 明 的 智能 手机 平台 就 是 一 个 很 好 的 例子 。 知 能 手机 平台 的 一 
两 大 山头 是 谷歌 研发 的 开放 式 平台 -Andioid， 以 及 蕴 果 的 封闭 式 平台 oe 

。 ios， 各 有 不 同 的 软 硬 件 规格 。 硬 件 包括 手机 的 处 理 器 架构 软件 则 ”， 
”是 天 家 常 说 的 手机 App, APP AE Application ( 应 用 程序 ) MEAR 

SPURRED NG Canary Birds) 或 通信 软件 Whatsapp 










ee 


别 平台 设计 不 同 的 版 本 ， 这 也 是 为 什么 你 的 iPhone 和 你 朋友 的 HTC F 
机 能 下 载 的 APP 不 太一 样 的 原因 。 以 Angry Birds 来 说 ， 开 发 商 的 芬兰 
Rovio Mobile 公司 一 开始 只 推出 iOS 的 版 本 , 所 以 只 有 iPhone 用 户 玩 得 
到 ， 后 来 随 着 这 款 游戏 受 欢迎 的 程度 增加 ， 才 又 推出 支持 Android 平台 
的 版 本 。 

因为 平台 会 决定 你 的 手机 能 够 执行 哪些 程序 , 所以, 选 购 手机 时 必 
须 考虑 要 用 哪 种 平台 ,同样 的 ， 企 业 要 处 理 和 分 析 数 据 ， 也 需要 选择 适 
当 的 平台 。 尤 其 当 你 面 对 的 是 大 数据 时 ， 数 据 的 源头 和 种 类 更 多 元 、 数 
据 的 变化 速度 更 快 ， 更 需要 有 一 个 平台 处 理 不 同型 态 的 数据 ， 以 便于 开 
发 和 应 用 数据 。 

另 一 方面 ， 分 析 平 台 也 提供 一 般 用 户 接触 和 处 理 数 据 的 接口 ， 如 果 
设计 得 简单 方便 ， 让 就 算 不 是 计算 机 工程 师 的 人 ， 如 职业 篮球 队 的 教练 、 
保险 公司 的 理赔 专员 、 新 生 儿 加 护 病房 的 护士 等 ， 都 不 需要 靠 专家 协助 
就 能 跑 分 析 的 话 ， 分 析 的 效益 才能 真正 发 挥 出 来 。 
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大 数据 分 析 平 台 上 跑 的 是 大 数据 ,由 于 大 数据 更 大 量 、 形 态 更 复杂 ， 
变化 也 更 快速 ， 所 以 ， 和 传统 “不 大 ”的 平台 相 比 ， 大 数据 分 析 平台 所 
需 应 用 的 技术 也 不 一 样 。 

有 什么 不 同 ? 想 要 回答 这 个 问题 ， 我 们 得 先 回 到 第 2 章 谈 过 的 大 数 
据 的 4 个 V 一 一 大 、 杂 、 快 、 疑 。 
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@ Volume: “ 


大 ” 量 存放 中 的 数据 ( data at rest 六 


@ Variety: :种 类 繁 “ 杂 ”的 数据 ( data in many forms )- 


@ Velocity: 


“快速 变动 的 数据 (data in motion ). 


© Veracity: - 真 伪 存 “ 疑 ”的 数据 ( data in doubt ). 


我 们 先 来 看 前 3 个 V， 每 个 V 分 别 代表 分 析 大 数据 时 会 面临 的 数据 


源 ， 各 自 能 以 不 同 的 技术 来 对 付 ， 如 图 13-1 所 示 。 
图 13-1 3 种 数据 形态 及 对 应 的 分 析 技术 





A 


a 非 传统 数据 
CE7 非 结构 化 数据 ) 


传统 数据 
一 《结构 化 数据 ) 





杂 : Variety 
社交 网 站 论坛 、 网 页 内 容 : 
单 击 流 、 手 机 短信 
即时 通信 、 电 子 邮件 
快 : Velocity 


传感器 、 监 控 视频 、GPS、 
高 速 交易 信息 、 人 金融 交易 信息 、 
Eee BIBA. CDR- 
“K: Volume 
企业 核心 系统 、 


ERP. CRM. SCM 系统 …… 


会: 











-持续 生成 的 数据 “一 快速 流动 的 数据 











要 素 1: 数据 仓库 技术 《处 理 第 1 个 V:“ 大 ”) 


第 F 类 数据 是 结构 化 数据 , 来自 于 传统 的 数据 源 , 包括 企业 的 ERP、 
CRM, SCM 和 人 力 资源 管理 等 应 用 系统 ， 以 及 支持 日 常 业 务 营运 的 核 
心 系统 ， 如 负责 管理 和 处 理 存款 、 贷 款 、 汇 款 和 支付 等 金融 产品 的 银行 
核心 系统 ,或 覆盖 承保 、 核 保 、 理 赔 、 保 安 等 各 个 环节 的 寿险 业 核心 系 
统 等 。 

这 些 系 统 产 出 的 结构 化 数据 保留 在 关系 数据 库 内 ， 按 照 事先 设 定 
的 格式 ( 结构 ) 所 组 织 。 但 一 个 企业 可 能 同时 拥有 好 几 个 数据 库 ， 数 
据 库 如 果 各 自 独 立 ， 数 据 被 拆散 在 不 同 的 数据 库 里 ， 就 很 难 拼凑 出 营 
运 的 全 貌 。 

以 银行 的 信用 卡 电话 营销 活动 为 例 , 银行 的 CRM 数据 库 中 存放 着 销 
售 人 员 团 队 与 客户 互动 的 记录 ,包括 客户 什么 时 候 购买 什么 产品 等 ， 假 
使 客户 是 因为 某 次 促销 活动 而 下 单 ，CRM 系统 也 应 记录 下 来 ， 而 这 笔 订 
单 就 是 当时 谈 成 生意 的 A 业务 人 员 的 业绩 。 同 样 的 ， 银 行 的 人 力 资源 管 
理 系统 也 应 记录 这 一 笔 订单 ， 作 为 A 年 终 考核 的 基准 。 

虽然 CRM 系统 和 人 力 资源 系统 都 有 和 这 笔 订单 相关 的 记录 ,但 是 ， 
数据 的 内 容 和 格式 却 有 差异 ，CRM 系统 数据 库 内 有 着 和 同一 位 客户 接触 
的 详细 记录 ,包括 A 和 客户 通话 多 久 和 几 次 、A 什么 时 候 发 短信 给 客户 、 
客户 申请 的 是 哪 一 种 信用 卡 等 , 以 及 除了 A 以 外 , 还 有 B、C、D 等 营销 
人 员 联 系 过 同一 位 客户 的 消息 。 至 于 人 力 资源 系统 则 记录 A 这 个 月 多 了 
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这 笔 业绩 、 可 换算 成 多 少 奖金 。 

注意 到 了 吗 ? A 在 谈 成 这 笔 生意 前 的 活动 , 以 及 B、C、D 所 付出 
的 时 间 成 本 并 没有 列 入 人 力 资源 系统 ,而 CRM 系统 也 不 会 记录 这 笔 订 
单 为 A 带 出 多 少年 终 奖金 。 但 银行 必须 要 掌握 每 一 笔 数据 ， 才 能 了 解 
公司 为 这 笔 订 单 究竟 投入 多 少 营运 时 间 和 资源 ， 也 才 有 机 会 找到 改善 
营运 效率 的 办 法 。 

此 时 , 数据 仓库 便 派 上 用 场 了 。 我 们 可 以 把 CRM 和 人 力 资源 系统 的 
数据 库 想 成 两 个 实体 的 小 仓库 ， 里 面 都 有 货架 ，CRM 和 人 力 资源 数据 则 
放置 在 货架 上 ， 各 自 依照 编号 排放 。 数 据 仓 库 则 像 是 一 个 中 央 的 大 仓库 ， 
按照 事先 设 定 的 规则 ， 从 小 仓库 的 货架 上 提取 不 同 编号 的 数据 ， 这 些 数 
据 如 同 工 业 生产 的 原料 ， 会 被 加 工 处 理 、 整 理 和 转换 成 可 以 分 析 的 格式 
后 ， 再 运用 分 析 的 软件 “生产 ”出 成 品 ， 也 就 是 可 用 的 信息 。 

由 于 第 3 章 已 经 介绍 过 数据 仓库 和 数据 挖掘 ,所 以 这 里 就 不 再 装 述 。 
但 值得 一 提 的 是 ， 数 据 仓库 的 技术 已 相当 成 熟 ， 市 面 上 也 有 不 少数 据 仓 
库 的 方案 能 帮助 企业 分 析 大 量 的 结构 化 数据 。 


BR 2: Hadoop 〈 处 理 第 2 个 V:“ 杂 ”) 


第 2 类 数据 则 是 半 结构 化 与 非 结 构 化 的 数据 , 来 自 非 传统 的 数据 源 ， 
包括 网 页 内 容 、 社 交 网 站 、 电 子 邮 件 和 单 击 流 等 ， 这 些 数 据 的 格式 与 结 
构 化 数据 不 一 样 ， 数 据 格式 多 元 且 繁 杂 ， 却 占据 全 世界 所 有 数据 的 85%。 
针对 大 数据 这 个 “ 杂 ” 的 特性 ，Hadoop 是 最 适合 的 分 析 技 术 。 
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Hadoop 是 由 Apache 软件 基金 会 Apache Software Foundation ) 所 研 
发 的 开放 源 代码 (open source) 分 布 式 计算 技术 ， 是 以 Java 语言 开发 ， 
专门 针对 执行 大 量 且 数据 结构 复杂 的 大 数据 分 析 所 设计 ， 其 目的 不 是 为 
了 瞬间 反应 、 提 取 和 分 析 数 据 ， 而 是 通过 分 布 式 的 数据 处 理 模式 ， 大 量 
扫描 数据 文件 以 产生 结果 。 

或 许 你 正好 奇 “Hadoop” 一 字 从 何 而 来 ， 有趣 的 是 ，Hadoop 并 不 代 
表 任 何 英文 字 或 缩写 代码 ， 只 是 一 个 无 中 生 有 创造 出 来 的 名 称 。 当 初 原 
始 开发 者 库 廷 (Doug Cutting) 在 为 这 个 新 技术 命名 时 ， 他 想 选 一 个 容易 
拼 字 和 发 音 、 便 于 沟通 ， 且 没有 在 其 他 地 方 使 用 过 的 代码 ， 于 是 神 来 一 
笔 地 借用 儿子 黄色 绒毛 填充 大 象 玩偶 的 名 字 ， 而 黄色 大 象 后 来 也 变 成 
Hadoop 的 官方 吉祥 物 ( 见 图 13-2 )。 


Hadoop 不 需 使 用 商用 服务 器 , 在 一 般 个 人 计算 机 ( PC ) 上 就 能 运转 。 
用 户 可 利用 网 络 连接 两 台 以 上 的 PC 组 成 服务 器 群 ,- 即 所 谓 的 “集群 ” 
( cluster ) -集群 内 的 主机 会 分 工 合作 处 理 数据 。 随 着 要 处 理 的 数据 量 越 来 
越 大 ， 只 要 不 断 增加 计算 机 的 数量 ， 而 不 需 修改 应 用 程序 代码 ， 就 能 立 
刻 增 加 Hadoop 的 计算 能 力 。 


万 一 数据 真 的 很 多 ， 就 得 买 很 多 台 PC， 不 是 得 花 很 多 钱 吗 ? 这 么 说 
虽然 没 错 ,但 看 看 一 些 数据 ， 你 就 会 发 现 Hadoop 还 是 很 “便宜 ": 买 一 
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台 效能 为 PC 两 倍 的 主机 ， 你 得 付出 远 高 于 两 台 PC 的 费用 ; 买 大 型 主机 。 
-得 花王 捷 万 元 ,但 同样 的 钱 可 买 到 数 百 台 PC， 通 过 Hadoop AEE 。 ”一 
— 供 超 过 一 台 天 型 主机 的 效能 .二 二- 一 Jpn e aa 
一 一 ”换言之 ， Hadoop HELLIS, 得 到 更 高 的 证 外 效能. see a 
o 据 分 析 的 能 力也 难怪 有 些 人 称 Hadoop 为 大 数据 的 救星 。 这 种 说 法 虽然 
一 夸大 ， 但 的 确 有 几 分 真实 ， 因 为 通过 Hadoop, 就 算 茶 包 不 够 深 的 个 人 或 
一 “组织 ， 也 能 分 析 大 量 的 结构 和 非 结构 数据 ! 
如 果 是 资本 雄厚 的 大 公司 , 就 更 有 本 钱 大 大 扩充 Hadoop 的 计算 量 了 。 
美国 Yahoo! 在 2 2008 年 就 宣布 采用 两 千 台 服务 器 ,把 Hadoop 技术 应 用 于 旗 - 
下 的 搜索 工作 上 ， 例 如 比 对 同 义 字 、 热门 关 键 词 分 析 等 。 另 外 ;沃尔玛 、 
"eBay, VISA; 中 华电 信和 台积电 亦 已 异 助 Hadoop 进行 数据 分 析 ， 包括 用 
户 行为 分 析 、 防 堵 诈 骗 及 提高 生产 线 合格 率 等 ， 并 产生 显著 成 效 。 
二 二。 除了 “EP 值 "(性 能 价格 比 》 很 活 人 之 处 , Hadoop 另 一 个 优点 是 其 一 
ws 相对 稳定 和 高 效率 的 数据 处 理 模式 。 为了 说明 这 二 点 ;我们 得 看 御 各 adoope ern 
计划 下 的 两 个 主要 项 目 : 分 布 式 文件 系统 (Hadoop Distributed File System, 
HDFS ) 和 分 布 式 处 理 程序 框架 ( MapReduce ). 









@ HDFS: 数据 切割 、 制 作 副本 、 分 散 储存 
HDFS 会 把 一 个 档案 切割 成 好 几 个 小 区 块 、 制 作 副本 ,然后 在 Hadoop 


服务 器 群集 电 跨 多 台 计 算 机 储存 副本 。 
首先 , 要 处 理 的 数据 会 被 拆散 成 一 个 个 档案 区 块 ( block ), 每 个 区 块 
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是 64 MB。 例如， 有 个 档案 是 “克林顿 总 统 2012 年 演讲 稿 "， 大 小 为 180 
MB, ， 便 会 被 分 成 3 个 区 块 ( 见 图 13-3 )。 


Block 1: 64 MB 
Block 2: 64 MB 


Block_3: 52 MB 


图 13-3 HDFS 复制 档案 区 块 的 方法 









































接着 ， 系 统 会 自动 制作 副本 ， 预 设 是 3 个 副本 ， 如 第 一 个 区 块 的 副本 
是 Block_ 1、Block_1 和 Block_1"， 依 次 类 推 ， 每 个 副本 会 被 存在 Hadoop 
集群 里 不 同 的 计算 机 上 。 在 这 个 例子 中 , 集群 里 共有 12 台 服 务 器 ， 这 
3 个 区 块 共 9 个 副本 存放 于 9 台 不 同 的 计算 机 中 。 因 为 一 台 计 算 机 只 能 储 
存 一 个 区 块 ， 所 以 在 放 入 9 个 副本 后 ， 这 9 台 计 算 机 就 不 能 再 存放 其 他 区 








块 的 副本 了 。 
© MapReduce: 拆 解 任务 、 分 散 处 理 、 汇 整 结果 


MapReduce 是 由 Map 和 Reduce 组 成 ， 前 者 分 散 计算 数据 ， 后 者 则 
负责 汇 整 Map 计算 完 的 结果 并 输出 。 
MapReduce 的 运作 方式 很 像 是 超市 盘点 存货 ; 店 经 理 先 将 盘点 任务 
分 配给 不 同类 别 货品 的 部 门 ， 每 个 部 门 各 自负 责 所 属 的 货架 ， 有 人 负责 
“请 清 用 品 、 有 人 负责 冷冻 食品 、 有 人 负责 生 鲜 食品 …… 大 家 完成 统计 后 ， 
各 自 将 存货 号 回报 给 店 经 理 ， 最 后 由 店 经 理 统一 汇 整 出 整 家 店 的 存货 
样 就 不 需要 由 店 经 理 二 个 单打 种 半 逐 一 清点 货 巢 的 商品 量 、 而 是 通 
过 分 散 处 理 的 方式 来 加 快 盘点 作业 。 i 
稚 点 任务 就 像 是 Map 程序 ， 每 个 部 门 都 执行 同样 的 盘点 程序 ， 并 只 
负责 处 理 局 部 数据 ,而 Reduce 就 是 汇总 存货 量 的 工作 。 
还 是 回 到 “克林顿 总 统 2012 年 演讲 稿 ” 档 案 的 例子 。 当 用 户 要 求 
= MapReduss 任务， 如 计算 中 提 弄 tane. i 








$ Z sacs E 个 副本 组 合 起 来 就 是 原先 180 MB 的 “克林顿 总 统 
”2012 年 演讲 稿 ”档案 ; 被 分 成 .3 份 储存 和 计算 。 换 句 话说， 本 来 一 台 计 ” 
算 机 得 处 理 180 MB 的 大 档案 ， 现 在 则 交 给 3 台 计算 机 ， 分 别处 理 64 MB 、 
64 MB 和 52 MB 的 小 档案 ,等 于 每 个 副本 只 需 做 本 来 工作 的 1/3 就 好 ， 





所 以 速度 当然 可 以 快 很 多 。 

更 厉害 的 是 ， 当 某 个 副本 损坏 时 ，MapReduce 还 会 自动 侦 测 ， 改 派 
另 一 副本 执行 任务 , 例如 , Block_1 坏 掉 时 , 系统 会 从 Block_1' 和 Block_1" 
间 选 出 “继任 人 选 "。 因 为 Hadoop 一 般 是 在 PC 上 运转 ，PC 的 故障 率 比 
商用 服务 器 高 出 许多 ， 所 以 ， 这 种 “容错 ”的 功能 非常 重要 ， 当 集群 中 
有 PC 损坏 时 ， 才 能 继续 执行 任务 。 

简单 来 说 ，Hadoop 借 由 把 数据 切割 、 分 散 存放 和 处 理 的 方式 ， 让 集 
群 内 每 台 计 算 机 只 需要 处 理 小 部 分 的 任务 ， 大 大 提高 数据 分 析 的 效率 ， 
再 加 上 可 以 同时 处 理 结构 化 和 非 结构 化 的 数据 格式 、 相 对 便宜 的 建立 成 
本 及 容错 的 特点 ， 成 为 大 数据 分 析 很 重要 的 技术 。 


要 素 3: 流 计算 〈 处 理 第 3 个 V:“ 快 ” 


大 数据 的 第 3 个 V 是 Velocity， 实 时 变动 的 流动 性 数据 (data in 
motion )， 这 类 数据 产生 后 ， 基 于 某 些 业务 需求 ， 只 有 极 短 的 时 间 可 以 处 
理 。 例 如 ， 在 9.11 事件 发 生 后 ， 美 国政 府 加 强 在 机 场 港口 等 地 的 入 关 安 
检 措 施 ， 运 用 脸 部 识别 技术 ， 必 须 在 旅客 通关 的 短 短 10 秒 内 找 出 通 辑 的 
恺 怖 份子 ， 其 分 析 就 分 秒 必 争 ， 非 常 讲求 时 效 性 。 

这 种 异动 频繁 、 流 量 极 大 ， 又 需 实时 响应 的 数据 ， 已 经 超过 传统 的 
数据 库 管 理 模式 的 处 理 能 力 , 而 得 交 给 流 计算 处 理 。 流 计算 是 源 自 于 IBM 
与 美国 国防 部 合作 研发 的 反恐 系统 ， 能 针对 大 数据 进行 实时 性 、 高 复杂 
度 的 分 析 ， 最 快 可 在 微 秒 内 做 出 反应 与 决策 。 
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13-4 “ 流 计算 对 比 传统 数据 库 管理 模式 
传统 计算 模式 流 计算 
Q aad 
o N 
修 $ Lf ah 
SY vq 
在 已 存放 的 历史 数据 中 找 答案 即时 分 析 持 续 流动 的 数据 


o 68 


传统 的 数据 分 析 模式 中 ， 数 据 得 先 收集 到 数据 库 中 再 搜索 或 查询 。 
举例 来 说 ， 企 业 的 人 事 数据 库 定期 进行 批 次 性 的 数据 统 整 ， 里 面 存放 着 
与 所 有 员工 相关 的 信息 。 若 要 统计 或 分 析 数据 时 ， 必 须发 动 查询 的 任务 ， 
如 “2012 年 12 月 31 日 为 止 ， 工龄 满 5 年 的 员工 "， 数 据 库 引擎 便 会 在 既 
有 的 数据 中 搜索 ， 下 钻 出 符合 查询 条 件 的 员工 数据 。 

数据 库 的 引擎 平常 不 会 运转 ， 只 有 在 接 到 查询 指令 后 才 会 启动 ， 启 
动 后 也 是 “一 个 指令 一 个 动作 ”， 收 到 什么 任务 就 交 出 什么 样 的 结果 。 

流 计算 就 不 同 了 ， 流 计算 有 个 不 断 运转 的 引擎 ， 进 入 引擎 的 不 是 查 
询 指 令 ， 而 是 源源 不 绝 的 数据 流 ， 可 在 数据 储存 前 先 完成 分 析 。 
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我 们 可 把 汇 入 流 计算 的 数据 流 想 成 一 列 骨牌 , 推倒 一 张 后 , 后 面 的 牌 就 
会 一 张 接着 一 张 产 生 连 锁 反 应 而 倒 下 。 好 比 海关 安检 , 数据 产生 ( 摄像 头 拍 
下 旅客 脸 部 照片 ) 后 流入 引擎 , 触发 计算 引擎 将 影像 转 成 可 判读 消息 如 旅客 
脸 部 特征 点 ( 眼 口 赐 的 位 置 和 距离 、 黑 班 、 姜 等 )， 把 这 些 特征 点 和 各 安检 
数据 库 中 的 数据 比 对 之 后 ， 再 拉 出 特征 点 相符 之 列 管 丽 怖 份子 的 照片 。 

这 只 是 一 个 旅客 而 已 ， 想 想 看 ， 美 国 的 大 型 机 场 每 小 时 有 几 千 人 入 
境 ， 全 美 约 有 1000 企 国际 机 场 以 及 几 百 个 港口 ， 同 时 读 取 、 转 换 、 比 对 
和 判读 旅客 数据 是 多 么 复杂 又 庞大 的 工程 ! 流 计算 却 能 动态 收集 多 个 数 
据 流 ， 使 用 先进 的 算法 将 结果 实时 传达 给 决策 人 员 ， 因 此 能 被 应 用 于 更 
复杂 、 更 机 动 且 须 立即 决策 的 数据 。 


要 素 4: 数据 治理 处 理 第 4 个 V:“ 疑 ”) 


上 面 3 个 要 件 处 理 的 是 大 数据 的 前 3 个 V, 现在 , 轮 到 第 4 个 V 了 ， 
也 就 是 不 确定 性 ( Veracity )。 

大 数据 的 源头 远 比 以 前 多 , :除了 传统 上 由 企业 信息 系统 所 产生 的 数 
据 外 ,还 有 越 来 越 多 来 自 社 交 网 站 和 传感器 等 非 传统 源头 的 数据 ， 使 得 
数据 真 伪 难 辨 、 破 碎 不 全 的 比例 越 来 越 高 ， 但 数据 一 定 要 可 靠 和 完整 ， 
分 析 才 有 意义 ， 因 此 ， 第 4 个 要 件 “ 数 据 治理 ”虽然 不 负责 数据 分 析 ， 
却 可 能 是 影响 大 数据 分 析 成 败 的 关键 。 

什么 是 数据 治理 ? “治理 ”( governance ) 和 “政府 ”( government ) 
的 英文 部 有 govern ( 管理 、 监 督 )， 两 者 在 意思 上 也 很 相近 。 把 治理 的 概 
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念 运用 在 数据 上 ， 指 的 是 组 织 要 像 政府 管理 政务 般 ; - 通过 一 系列 的 措施 
与 程序 、 详 细 设 定 管控 的 机 制 ， 妥 善 地 管理 并 监督 数据 。 
数据 治理 可 以 分 成 几 个 层面 来 谈 ， 如 图 13-5 所 示 - 


图 13-5 ”数据 治理 架构 
LEL] 


信息 架构 


信息 安全 、 隐 私 和 合 规 性 





L 数据 模型 管理 : 不 同 的 系统 有 不 同 的 模型 ， 当 数据 从 上 游 进入 下 
游 系统 时 ， 必 须 转换 成 一 致 的 模型 才能 进行 处 理 和 分 析 。 举例 来 : 
说 ,同一 笔 “A 连锁 快餐 店 当日 营 收 额 ”的 消息 ， 门 市 的 销售 点 
系统 可 能 依照 各 产品 的 营 收 贡献 度 来 分 类 呈现 (HOE 
营 收 10%、 汉 堡 占 50%、 可 乐 占 .10% 等 )， 而 物流 系统 则 按照 各 
门市 营业 额 来 保存 (如 东区 门市 营业 额 150 万 、 西 区 200 万 、 南 

区 120 万 等 这 两 个 系统 描述 的 是 同一 件 事情 ， 却 以 两 种 形式 
呈现 ， 这 两 种 形式 就 是 两 个 不 同 的 数据 模型 。 
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看 过 烤 蛋 糕 的 烤 模 吗 ?这 两 种 模型 就 好 像 一 个 圆 形 、 一 个 方形 的 
烤 模 ,“A 连锁 快餐 店 当日 营 收 额 ” 则 好 比 一 个 面团 ， 放 入 烤 模 
加 热 可 变 成 不 同形 状 的 蛋糕 。 而 数据 模型 管理 的 任务 就 是 要 知道 
组 织 内 总 共有 100 个 圆 形 、20 个 方形 、40 个 星 形 的 烤 模 。 

2， 元 数据 (meta data) 管理 : 元 数据 是 描述 数据 的 数据 ,元 数据 负 
责 定义 数据 和 规范 数据 间 转 换 的 定义 。 以 快餐 店 的 营 收 为 例 ， 其 
元 数据 可 能 包括 什么 叫做 营 收 ( 如 各 门市 销 货 收 入 )， 以 及 营 收 
如 何 转换 为 利润 (如 : 利润 = 营 收 -成 本 + 利息 ) 等 。 
同样 以 蛋糕 烤 模 来 说 明 ， 元 数据 管理 是 要 清楚 掌握 每 个 圆 形 、 方 

形 和 星 形 烤 模 各 有 什么 功能 ， 以 及 圆 形 数据 该 如 何 转换 成 方形 、 方 

形 数据 又 要 如 何 变 成 星 形 等 ， 才 能 确保 用 作 分 析 的 数据 有 意义 和 符 

合 需求 。 

3. 数据 架构 ， 数 据 架构 是 数据 从 源头 到 最 下 游 分 析 的 过 程 间 ， 经 过 
多 次 整理 的 过 程 ， 璧 如 ,快餐 店 各 门市 营 收 一 各 区 域 营 收 一 公司 
总 营 收 一 公司 利润 ， 各 阶段 都 要 有 明确 的 组 织 和 架构 ， 以 保障 分 
析 数 据 正确 可 靠 。 

4. 数据 质量 : 数据 质量 指 的 是 数据 正确 、 完 整 且 可 被 有 效率 地 使 用 ， 
市 面 上 已 有 许多 可 衡量 、 改 善 和 验证 数据 质量 的 方案 。 

5. 数据 储存 管理 ， 好 的 储存 管理 有 助 于 加 快 数据 处 理 的 速度 ， 一 般 而 
言 ， 数据 需 按照 使 用 频率 和 价值 区 分 为 不 同 层级 ， 刚 “出 炉 ” 热 腾 
腾 的 数据 及 经 常 使 用 的 数据 应 存放 在 反应 速度 较 快 的 储存 设备 上 ， 
以 方便 存 取 和 提高 效率 ， 而 比较 少 使 用 、 比 较 “ 冷 ”的 数据 ， 则 可 
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储存 在 比较 低级 或 反应 较 慢 的 设备 里 ， 以 节省 储存 设备 的 开支 。 

6， 数 据 安全 、 隐 私 和 规章 : 最 后 ， 还 要 保障 数据 的 安全 和 隐私 。 不 是 
每 一 笔 数据 都 应 该 拿 来 分 析 ， 也 不 是 组 织 内 部 每 个 人 都 有 权 接 触 所 
有 的 数据 ， 这 些 原则 都 需要 有 好 的 规范 和 机 制 辅助 才能 落实 。 


要 素 5: 文本 分 析 


大 数据 充满 各 种 社交 网 帖子 、 电 子 邮 件 和 新 闻 信 息 等 文本 ， 对 传统 
计算 模式 来 说 ， 这 些 非 结构 化 或 半 结构 化 数据 就 好 像 是 从 未 学 过 的 外 国 
语言 一 样 ， 根 本 看 不 懂 。 更 不 用 说 该 如 何 解读 出 意义 了 。 通 过 文本 分 析 ， 
这 些 原本 “无 意义 ”的 信息 则 可 从 原始 文字 数据 中 被 抽取 出 来 ， 如 同 经 
过 翻译 一 样 ， 因 而 产生 意义 。 

简单 来 说 ,文本 分 析 是 从 文字 数据 提取 信息 的 过 程 ， 有 几 种 用 途 : 
信息 摘要 ( 从 大 笔 信息 或 单个 文件 中 找 出 关键 消息 )、 消 息 分 类 ( 分 析 文 
本 中 提 及 哪些 主题 ) 和 更 复杂 的 情绪 分 析 ( 如 从 网 络 的 评论 文章 中 分 析 
消费 者 对 产品 的 评价 ) 

下 面 这 个 例子 是 简单 的 消息 分 类 过 程 ( 见 图 13-6 )。 

左边 方 格 里 有 两 段 文字 ,属于 非 结构 化 数据 ， 用 户 可 通过 文本 分 析 ， 
提取 出 文中 提 及 的 人 名 、 职 称 和 组 织 ， 并 排放 到 正确 的 字段 中 ， 转 成 右 
边 表格 中 的 结构 化 数据 。 

完成 这 样 的 任务 ， 系统 需 要 有 好 几 种 词汇 表 ( glossary), 包括 人 名 、 组 
织 名 和 职称 名 的 词汇 表 。 每 一 个 词汇 表 就 像 黄页 一 样 ， 罗 列 着 不 同 的 人 名 、 
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组 织 名 和 职称 ， 当 文本 出 现 某 个 词汇 时 ， 如 “Bi Gates”"， 系 统 就 会 去 词汇 
表 中 检索 、 HA “Bill Gates” 是 人 名 后 ,就 把 它 放 入 右边 的 “名 字 ” 字段 中 。 


图 13-6 文本 分 析 简 例 


For years, Microsoft Corporation 
CEO Bill Gates was against open 
sourse. But today he appears to 
have changed his mind. “We 
can be open source. We love 
the concept of shared source, “ 
said Bill Veghte, a Microsoft VP. 
“That s a super-important shift 
for us in terms of code access.” 


Richard Stallman, founder of 


countered saying... 


BF 职称 组 织 
Bill Gates CEO Microsoft 
Bill Veghte vP Microsoft 


_ Richard Stallman Founder Free Soft. 


文件 


当然 ， 不 是 每 个 文本 都 这 么 直接 了 当 ， 组 织 或 企业 分 析 文 本 也 不 仅 
止 于 要 分 门 别 类 而 已 。 随 着 移动 设备 、 社 交 媒 体 等 新 兴 技 术 的 普及 ， 消 
费 者 越 来 越 习 惯 在 网 络 上 分 享 消息 、 倾 心 吐 意 ， 企 业 也 试图 解析 这 些 每 
天 大 量 产生 的 非 结构 化 数据 ， 期 望 从 中 挖掘 更 多 有 关 消费 者 对 商品 和 品 


牌 的 观感 ， 以 调整 产品 开发 和 市 场 营销 策略 。 


针对 这 类 需求 ， 文 本 分 析 还 可 升级 到 更 复杂 的 语意 分 析 ( semantics 
analysis )， 从 文字 中 解读 发 帖 者 的 情绪 或 好 恶 。 例如 , 我 们 在 第 3 章 介绍 
过 , 解析 tweet 的 情感 倾向 可 预测 股价 的 变动 ,而 且 预 测 的 精准 度 丝毫 不 
撑 股市 高 手 。 以 Facebook 挂牌 当天 的 股价 为 准 ， 开 盘 后 tweet 情感 转向 
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负面 时 ， 半 小 时 内 Facebook 股价 开始 下 跌 ， 而 当 tweet 情感 转正 时 ， 
Facebook 股价 立刻 在 8 分 钟 内 开始 反弹 。 

下 面 的 例子 就 更 有 趣 了 ， 分 析 样本 同样 是 社交 网 站 的 帖子 ， 不 过 ， 
目的 是 为 了 预测 电影 票房 。 

钢铁 侠 、 绿 巨人 、 雷 神 索 尔 、 美 国 队长 WIR, REG, RKR 
奇怪 的 名 字 ， 你 是 否 如 数 家 珍 ? 如 果 是 的 话 ， 你 应 该 看 过 《复仇 者 联盟 》 
( The Avengers ) 这 部 2012 年 上 映 的 超级 英雄 大 片 。 但 这 没什么 好 讶 异 的 ， 
因为 除了 你 以 外 ， 全 球 大 约 还 有 一 亿 人 在 电影 首 轮 上 映 时 挤 进 电影 院 ， 
观赏 这 群 超级 英雄 放下 层 见 、 同 心 协力 击 退 入 侵 地 球 的 外 星人 。 日 碑 和 
票房 如 此 超群 ， 也 把 这 部 电影 推 向 影 史上 票房 第 3 高 的 宝座 ， 仅 次 于 冠 
军 《 阿 凡 达 》 和 亚军 《泰坦 尼克 号 》。 

不 过 ， 在 《复仇 者 联盟 》 上 映 前 ， 有 人 已 经 预测 到 这 部 片 的 票房 绝 
对 不 俗 ! 

2012 年 美式 足球 “超级 杯 ”( Super Bowl ) 比赛 期 间 ，IBM 大 量 扫描 
Twitter 和 Facebook 等 社交 网 站 和 博客 的 帖子 ， 从 中 搜集 和 分 析 网 友 对 几 
部 片 商 强 打 电影 的 评论 ， 除 了 《复仇 者 联盟 》 之 外 ， 还 包括 《 异 星 战场 : 
强 卡特 战 记 》( John Carter ).《 大 独裁 者 落难 记 》( The Dictator), (3D 恶 
RRE: 复仇 时 刻 》( Ghost Rider: Spirit of Vengeance ) 和 《海豹 神 兵 : 英 
勇 行动 》( Act of Valor) 等 片 。 

这 不 是 IBM 第 一 次 把 语意 分 析 技 术 用 在 测 知 社交 网 站 的 “民意 ” 动 
向 上 。 在 超级 杯 登场 前 ，IBM 已 和 美国 南 加 州 大 学 合作 发 展 出 “奥斯卡 
民意 量 表 ”( Oscar Senti-Meter )， 根 据 tweet 数量 和 tweet 所 表达 的 情绪 ， 
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为 2012 年 奥斯卡 奖 候选 的 影片 和 影星 排名 ， 让 全 球 的 影迷 都 看 得 到 哪 部 
电影 或 哪 位 影星 在 网 络 世界 中 的 人 气 和 正面 评价 最 高 ， 例 如 ， 男 演员 中 
乔治 克 和 鲁尼 最 具 人 气 ， 而 麦 特 戴 蒙 则 享有 最 多 正面 评价 。 虽 然 乔 治 克 鲁 
_ 尼 最 后 没 得 奖 ， 麦 特 戴 蒙 则 连 提名 都 没有 ， 但 分 析 结 果 的 本 身 还 是 非常 


Ai i ELA HWA) TIRI, 下 次 选 演员 阵容 时 ， _ 这 些 结果 就 有 很 


大 的 参考 价值 了 。 

超级 杯 时 ， 奥 斯 卡 民意 量 表 便 担负 起 重任 。 其 实 IBM 从 2012 年 1 月 
1 日 起 ; 已 经 开始 监测 社交 网 站 中 对 这 几 部 电影 的 评论 , 不 过 最 密集 分 析 
的 时 段 是 在 超级 杯 举办 的 2 月 5 日 当天 ，IBM 以 每 分 钟 为 单位 ， 记 录 网 
友 提 到 每 部 电影 的 次 数 ， 以 及 对 电影 的 好 恶 。 

为 什么 选 在 超级 杯 ? 内 为 超级 杯 每 年 都 会 吸引 一 亿美 国人 收看 ， 可 
说 是 全 美 年 度 最 引 人 注 目的 活动 ， 因 此 超级 杯 期 间 的 广告 效益 特别 高 
好 莱 坞 也 都 会 抢 在 此 时 播 出 预告 片 ， 广 告 在 网 络 上 激 起 的 讨论 和 关注 特 
别 多 ， 正 是 分 析 “ 原 料 ” 最 多 的 时 候 。 

超级 杯 比赛 共有 4 节 ， 每 节 15 分 钟 ， 在 中 间 穿 插 的 广告 时 段 中 , 包 
括 《复仇 者 联盟 》 在 内 的 几 部 电影 都 播 出 长 30 秒 的 预告 片 。 为 了 满足 你 
的 好 奇 心 ， 顺便 提 三 下 ”这 30 秒 就 要 150 万 美元 ! 

事实 证 明 ， 超 级 杯 的 天 价 广告 费 物 有 所 值 。 预 告 片 播 出 前 ， 网 友 对 几 
部 电影 的 讨论 都 近 于 零 ， 播 出 后 全 都 瞬间 爆 量 : 在 晚上 6:30 一 8:30 比赛 进 
行 的 两 个 小 时 内 ，IBM 共 收 集 到 11 亿 篇 tweet、570 万 篇 博客 和 论坛 帖子 ， 
其 中 有 350 万 条 消息 和 电影 有 关 , 谈论 《复仇 者 联盟 》 的 帖子 数 接近 10 万 ， 
数量 足 足 比 该 时 段 上 广告 的 其 他 电影 高 出 好 几 倍 ， 如 图 13-7 所 示 。 
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13-7 ”以 语义 分 析 统 计 网 友 对 电影 的 评论 数 


超级 杯 比赛 期 间 , 《复仇 者 联盟 》 预 告 片 创造 出 远 高 于 同期 其 他 电影 的 话题 


讨论 量 复仇 者 联盟 
30000 ASAT MLE 
25000 异 星 战场 ， 强 卡特 战 记 
-2__ a 屎 观战 车 2， 复仇 时 刻 
ae 特种 部 队 2， 正 面 对 决 
15000 罗拉 克 斯 
10000 超级 战舰 
a BWAR: RETA 
Ee 
05 6 7 8 9 10 n 12 
pm am 
2 月 5 日 (美国 东部 时 间 ) 
数据 来 源 :IBM 


预告 片 有 人 讨论 当然 好 , 但 最 重要 的 还 是 要 让 大 家 愿意 掏 钱 看 电影 。 
Fi, IBM 还 运用 奥斯卡 民意 量 表 分 析 网 友情 绪 的 正 反 向 ， 来 推论 网 友 
是 否 有 意愿 花 钱 看 电影 。 分 析 结 果 显 示 , 在 超级 杯 广告 播 出 前 ，18% 的 人 
对 《复仇 者 联盟 》 有 正 向 情绪 ， 播 出 后 达到 35% 的 高 峰 ， 之 后 虽然 下 滑 ， 
但 仍 维持 在 接近 18% 的 比例 ， 表 示 将 近 两 成 的 人 有 兴趣 看 这 部 电影 。 


另 一 部 同样 耗费 巨 资 打造 的 动作 大 片 《 强 卡特 战 记 》 就 没 这 么 幸运 了 。 
在 超级 杯 预告 片 播 出 前 ， 正 向 情绪 的 网 友 有 26%, 播 出 后 居然 不 增 反 减 , 掉 
到 20%， 超 级 杯 结束 后 更 暴跌 到 只 有 6% 一 13% 之 间 ， 显 然 当天 的 预告 片 做 


得 不 好 ， 让 不 少 本 来 有 意愿 看 电影 的 人 都 转 为 负面 ( 见 图 13-8 )。 


图 13-8 从 网 





讨论 量 
5000 


2g 27% 





4000 


3000 


2000 


1000 


评论 分 析 消 费 者 看 电影 的 意 
《 强 卡特 战 记 》( 上 表 ) 超级 杯 预告 片 播 出 后 ， 持 正 向 意愿 的 网 友 比例 大 幅 下 滑 


讨论 中 表示 有 意愿 
看 电影 的 比例 


强 卡特 战 记 








(#) O som gpm 


30000 37% 
25000 
20000 
15000 
10000 

5000 


(#) 0 — 
Spm 


数据 来 源 : IBM- 
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第 13 章 
大 数据 分 析 的 技术 要 件 


除了 统计 评论 数量 和 判断 正 负面 意向 之 外 , 语意 分 析 还 能 将 评论 内 容 
按照 议题 分 类 ， 做 出 更 细致 的 分 析 。IBM 从 提取 出 来 的 社交 网 络 讨论 中 ， 
进一步 分 析 网 友 对 《复仇 者 联盟 》 和 《 强 卡特 战 记 》 在 预告 片 、 演 员 阵 容 、 
配乐 、 剧 情 和 特效 等 5 个 项 目 上 的 观感 ,发 现 有 关 《 复 仇 者 联盟 》 的 讨论 
绝 大 多 数 都 集中 在 预告 片上 ， 而 且 几 乎 一 面倒 都 是 正面 评论 ， 而 《 强 卡 特 
战 记 》 的 演员 阵容 和 预告 片 则 得 到 较为 两 极 化 的 评语 ( 见 图 13-9 ). 


E 13-9 按 明 细 项 目 分 析 评论 正 反 向 观感 
网 友 对 《复仇 者 联盟 》 预 告 片 几乎 一 面倒 叫好 


超级 杯 期 间 《 强 卡特 战 记 ) 评论 情绪 分 类 超级 杯 期 间 《 复 仇 者 联盟 )》 评论 情绪 分 类 
80 1300 

70 

1100 

60 

50 900 

kad 700 

30 

20| 500 

10 300 

0 md = - 

: :| 
-20 100 
E 正面 评论 数量 E 负面 评论 数量 
数据 来 源 ，IBM 


电影 上 映 后 ,《 强 卡特 战 记 》 在 全 美 票房 惨淡 ， 几 乎 只 有 《复仇 者 联 
盟 》 的 十 分 之 一 。 对 影迷 来 说 ， 选 错 电影 看 ， 项 多 就 是 花 点 冤枉 钱 、 进 
电影 院 吹 冷 气 睡 上 一 觉 ， 但 如 果 你 是 电影 公司 的 股东 ， 票 房 惨遭 滑铁卢 
FES LEAS HERR 
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如 果 运 用 像 奥 斯 卡 民意 量 表 这 一 类 的 语意 分 析 工 具 ， 电 影 公 司 就 能 
够 在 电影 上 映 前 先 在 网 络 上 “ 试 水 温 "， 及 早 调整 预告 片 的 内 容 、 配 乐 ， 
或 甚至 重新 拍摄 电影 的 部 分 片段 ， 尽 可 能 提高 票房 ， 而 创造 出 很 高 的 投 
资 效 益 。 当 然 ， 除 了 娱乐 产业 外 ， 社 交 网 站 的 语意 分 析 还 可 帮助 很 多 公 
司 开发 消费 族群 、 了 解 消费 者 对 品牌 和 产品 的 好 恶 ， 而 发 展 出 无 限 商机 。 


要 素 6: 可 视 化 和 搜索 接口 


有 了 上 述 5 个 要 素 后 ,组 织 已 经 可 以 进行 大 数据 分 析 了 ， 不 过 ， 为 
了 让 一 般 使 用 者 也 能 轻松 了 解 、 使 用 和 查询 数据 ， 还 需要 提供 简单 易 上 
手 的 使 用 接口 ， 最 基本 的 是 具备 数据 搜索 功能 的 查询 接口 ， 更 高 级 一 点 
则 还 可 以 图 表 等 可 视 化 方式 呈现 分 析 结果 。 

大 多 企业 和 组 织 内 部 已 经 有 应 用 系统 及 结构 纷 杂 的 数据 ， 当 他 们 想 
要 迈 入 大 数据 分 析 的 领域 时 ， 第 一 步 往往 都 是 从 查询 界面 开始 。 基 本 上 ， 
一 般 使 用 者 虽然 不 懂 信息 工程 ， 但 多 半 很 熟悉 Google 、Yahoo! 等 搜索 引 
擎 ; 现在 市 面 上 查询 的 接口 系统 ， 使 用 起 来 和 搜索 引擎 差不多 ， 输 入 关 
键 词 后 ， 即 可 同时 搜索 结构 化 、 非 结构 化 和 半 结 构 化 数据 ， 所 以 能 够 快 
速 找到 所 需要 的 信息 ， 并 执行 简单 的 分 析 。 

珠宝 品牌 蒂 芬 尼 ( Tiffany & Co.) 靠 懂 得 消费 者 的 心 ， 叱 喀 精 品 界 超 
过 175 年 ， 他 们 新 增 的 秘密 武器 ， 就 是 一 个 能 让 店员 快速 查询 的 搜索 接 
口 。 每 当 顾 客 踏 入 店 里 ， 店 员 可 通过 一 个 简单 的 接口 系统 ， 查 询 顾客 可 
能 感 兴趣 的 产品 。 店 员 只 要 输入 顾客 的 特征 ， 如 “年 纪 看 似 30~35 岁 、 
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些 特征 者 可 能 感 兴趣 的 商品 ， 店员 便 可 投 其 所 好 ， 立 即 为 她 推荐 这 些 商 
品 。 顾 客 觉得 店员 了 解 自己 的 品味 、 懂 得 自己 的 需求 ， 自 然而 然 比 较 乐 
意 掏 钱 血 拼 了 。 
有 了 这 种 容易 使 用 的 接口 ， 组 织 内 执行 日 常 业务 的 人 才 愿 意 和 能 够 
接触 所 需 信息 ， 大 数据 分 析 也 才 真 的 有 意义 〔 见 图 13-10 )。 


图 13-10 大 数据 分 析 平 台 的 6 大 要 素 





-还 记得 我 们 在 第 2 章 提 过 ， 大 数据 就 像 巨 大 的 矿脉 一 样 吗 ?大 数据 
持续 增加 ， 如 果 依靠 传统 计算 和 分 析 模式 ， 我 们 所 能 处 理 的 比例 越 来 越 
低 ， 根 本 无 法 判断 矿 体 里 埋藏 的 究竟 是 稀世 珍宝 或 弃 土 废 矿 。 





但 是 ， 用 对 了 工具 ， 就 能 用 符合 经 济 效益 的 方式 大 规模 开采 。 大 数 
据 分 析 平 台 就 是 这 个 工具 ， 其 6 个 要 素 解决 了 大 数据 应 用 和 分 析 过 程 中 
不 同 的 挑战 和 需求 。 组 织 可 依据 自己 的 信息 策略 、 设 定数 据 分 析 的 需求 ， 
好 像 分 层 探勘 矿藏 一 样 ， 从 最 省 力 、 明 确 的 开采 点 切入 ， 得 到 短期 效益 
后 , 再 逐步 发 展 其 他 几 项 能 力 ， 更 深入 、 更 全 面 地 挖 出 对 加 速 组 织 增长 、 
改善 生活 质量 ,乃至 于 促进 社会 发 展 有 所 帮助 的 宝贵 发 现 ， 原 矿 也 才能 
真正 化 为 金 ! 


云端 时 代 杀 手 级 应 用 : 
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fa 我 们 在 撰写 这 本 书 的 后 期 ， 一 则 国际 新 闻 引起 了 我 的 注意 。 
报导 上 说 一 位 研究 欺诈 问题 的 数据 科学 家 ， 发 现 欺诈 的 传播 力 
和 DNA 的 排序 问题 非常 类 似 , 在 融合 了 两 个 完全 不 相干 的 世界 之 后 , 他 
和 他 的 团队 找到 了 一 种 能 大 幅 降 低 欺 诈 损失 的 解决 方案 。 

这 代表 除了 消费 者 导向 ( consumer-oriented ) 的 零售 业 、 社 交 媒体 ， 或 
者 是 之 前 我 们 所 叙述 的 能 源 产业 、 健 康 护 理 和 交通 运输 之 外 , 未 来 这 类 跨 领 
域 的 大 数据 分 析 实例 会 越 来 越 多 ， 而 且 几乎 所 有 的 产业 都 可 以 应 用 。 

例如 ， 我 们 知道 某 家 世界 级 的 轮胎 大 厂 ， 已 经 在 进行 一 项 实验 ， 可 
以 针对 车 主 的 驾驶 习惯 、 车 型 、 环 境 等 因素 ， 探 测 哪 一 只 轮胎 何 时 该 检 
修 ， 同 时 告知 车 主 离 他 最 近 的 检修 厂 在 哪里 。 

以 前 企业 的 思维 是 ， 希 望 驾驶 员 在 使 用 轮胎 的 时 候 很 安全 ， 但 是 耗 
损 率 可 以 高 一 点 ， 这 样 你 才 会 在 一 定 的 时 间 内 去 更 换 轮 胎 。 然 而 ， 这 些 
坏 掉 的 、 报 废 的 轮胎 ， 禁 烧 了 以 后 形成 空气 污染 ， 掩 埋 了 以 后 又 是 不 可 
分 解 的 永久 性 垃圾 ， 对 环境 造成 很 大 的 影响 。 

但 不 久 的 将 来 ， 轮 胎 的 使 用 可 能 会 从 按 “ 数 量 ” 计 费 ， 变 成 按 “ 里 
程 ” 计 费 ， 利 用 车 子 上 的 传感器 ， 可 以 预知 这 颗 轮胎 何 时 需要 补 刻 胎 纹 ， 
何 时 需要 更 换 。 如 此 一 来 ,制造 商 的 思维 改变 了 ， 制 作 轮胎 时 会 想 要 让 
这 颗 轮 胎 的 使 用 寿命 越久 越 好 ， 消 费 者 的 思维 也 会 跟着 改变 ， 那 么 我 们 
对 天 然 资 源 的 消耗 和 污染 的 产生 都 会 降低 。 

在 中 国 ,已 经 有 很 多 城市 开始 利用 跨 领 域 的 大 数据 分 析 ， 将 我 们 的 
城市 、 产 业 、 生 活 变 得 更 具 智慧 。2013 年 新 北市 就 和 全 球 其 他 33 个 城市 
一 起 ， 利 用 IBM 提供 的 专业 团队 及 技术 协助 改善 市 政 ， 初 期 会 以 警 政 服 





务 为 主 ,打造 一 个 提升 生活 环境 质量 与 城市 安全 的 “科技 防卫 城 "。 

其 中 包括 交通 服务 电子 化 、 整 合 勤务 指挥 管制 系统 、 广 建 数字 影像 
监视 系统 、 提 高 刑 案 侦查 及 鉴 识 专业 能 力 等 建构 基础 ， 以 科技 为 主轴 ， 
通过 有 效 的 资源 整合 ， 提 高 治安 服务 效能 。 例 如 整合 了 原本 各 自 独立 的 
报案 、 警 车 卫星 定位 、 地 理 信息 、 峙 车 车 牌 识别 及 监视 器 等 8 大 系统 的 
“情报 整合 中 心 "， 就 可 以 通过 卫星 、 监 视 器 实时 有 效 地 掌握 案 发 现场 状 
况 ， 让 警察 赶 到 犯罪 地 点 后 ， 可 以 在 最 短 时 间 内 追踪 歹徒 逃逸 方向 。 

另外 ， 也 有 一 些 学 术 单位 利用 相关 指针 与 数据 库 交 叉 分 析 ， 预 测 国 
内 的 社会 消费 品 零售 总 额 、 城 镇 居民 人 均 可 支配 所 得 、 消 费 性 支出 与 非 
消费 性 支出 等 发 展 ， 提 供给 零售 企业 用 在 销售 据点 选择 、 商 品 货色 安排 
及 预 估 销 售 量 上 。 

这 些 都 代表 了 各 个 产业 正在 借 由 大 数据 分 析 ， 超 越 并 包含 现 有 第 一 
级 产业 ( 农 、 牧 、 矿 )、 第 二 级 产业 ( 制造 业 )、 第 三 级 产业 (服务 业 ) 
的 限制 ， 迈 向 以 知识 、 智 能 为 主 的 第 四 级 产业 ( 生活 知识 体验 ) 和 第 五 
级 产业 ( 生命 转化 )。 


知识 十 智能 :中 小 企业 新 出 路 


2013 年 将 是 大 数据 的 实践 元 年 ， 尤 以 电信 与 金融 服务 企业 最 明显 ， 
伴随 着 企业 应 用 案例 的 出 现 , 也 将 会 有 越 来 越 多 的 系统 整合 商 ( SI ) 与 独 
立 软件 开发 商 OSV ) 投入 这 个 领域 。 

对 于 以 中 小 企业 为 主体 的 产业 结构 来 说 ， 或 诈 有 人 会 认为 ， 大 数据 
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分 析 只 适用 于 资金 雄厚 或 数据 庞杂 的 大 企业 。 事 实 上 ， 以 目前 的 发 展 来 
看 ， 大 企业 进入 大 数据 分 析 的 困难 度 的 确 较 低 ， 又 或 者 是 它 需 要 的 动力 
( motivation ) 较 高 ， 我 们 以 台积电 为 例 ， 由 于 它 的 制程 数据 是 可 采集 的 ， 
所 以 进入 的 困难 度 较 低 ， 又 因为 是 经 营 全 球 市 场 ， 加 上 只 要 汇率 波动 、 
运输 状况 等 外 部 因素 一 变动 ， 成 本 与 获 利 会 差 很 多 ， 所 以 它 需 要 大 数据 
分 析 的 动力 自然 也 较 高 。 

但 是 中 小 企业 在 这 波 数据 浪潮 当中 ,一 样 可 以 利用 大 数据 分 析 ， 找 
到 改变 的 新 契机 。 例 如 ， 美 国 的 奶 农 利用 大 数据 分 析 搭 配 机 器 手臂 来 帮 
忙 挤 牛奶 ， 传 感 器 会 记录 每 一 头 乳 牛 分 泌乳 汁 的 统计 数据 ， 经 过 智能 手 
机 上 的 APP 上 传 到 分 析 系 统 ， 就 可 以 直接 分 析 这 些 牛 乳 的 生 菌 数 ， 以 得 
知 乳牛 是 否 健康 ， 有 没有 感染 乳腺 炎 ， 进 而 找 出 优化 的 挤 奶 策略 ， 而 机 
器 手臂 则 会 自动 找 出 乳牛 乳头 ， 装 上 挤 奶 装置 ， 这 套 系统 目前 已 让 一 头 
牛 可 以 多 生产 出 518 千克 的 牛奶 。 

另外 ， 以 色 列 的 葡萄 酒 庄 利用 传感器 ， 收 集 旗 下 签约 葡萄 园 的 数据 ， 
包括 每 一 年 的 阳光 、 雨 水 、 湿 度 、 土 壤 里 面 的 成 分 ， 进 行 大 数据 分 析 ， 
来 预测 葡萄 的 糖分 、 酸 味 等 产 出 情况 ， 一 方面 提供 给 农夫 作为 种 植 时 的 
参考 ， 另 一 方面 提供 给 酿酒 师 作为 调味 时 的 依据 。 

此 外 ， 它 也 把 这 些 数据 提供 给 品 酒 社 群 ， 让 消费 者 共同 参与 葡萄 酒 
的 产 制 过 程 ， 甚 至 可 以 为 客户 提早 预定 这 批 葡 萄 要 制 成 什么 风味 的 酒 款 ， 
这 种 做 法 让 它 的 客户 保留 率 是 100%,， 光 是 预购 量 就 让 这 家 企业 不 用 再 花 
钱 做 促销 或 广告 宣传 。 

从 这 些 例子 中 可 以 看 到 大 数据 分 析 应 用 面 的 广泛 , 而 就 中 小 企业 居多 的 








台湾 地 区 来 说 ， 如 果 国 外 的 奶 农 和 葡萄 酒 商 能 做 ， 那 么 当地 的 茶叶 、 普 油 、 
稻米 等 可 不 可 以 也 用 这 个 方法 ， 进 一 步 去 提高 产品 的 附加 价值 和 客户 稳定 
度 ? 

如 果 一 家 小 公司 的 数据 完整 性 不 足 、 经 费 不 够 ， 那 么 在 产业 转型 的 同时 
就 应 该 思考 如 何 发 展 一 种 新 的 商业 模式 ， 把 该 产业 的 数据 和 经 费 集 中 起 来 ， 
形成 一 个 可 以 共享 的 数据 池 (Data Poof )， 让 大 家 共享 这 样 的 资源 ， 来 降低 大 
数据 分 析 的 进入 障碍 ， 像 是 纺织 工会 或 外 贸 协会 就 很 适合 提供 这 样 的 平台 。 

至 于 以 代 工 为 主 的 台湾 地 区 制造 业 ， 也 在 “制造 业 服 务 化 ”的 升级 
过 程 中 面临 无 数 挑战 ， 运 用 大 数据 分 析 也 能 提供 另 一 个 不 一 样 的 发 展 策 
略 ， 球 承 制造 商 瑞典 SKF 集团 的 例子 就 非常 值得 参考 。 

这 家 老牌 的 球 承 制造 商 ， 原 本 因为 东南 亚 等 地 的 同行 低 价 抢 单 ， 加 
上 北欧 地 区 人 工薪 资 高 于 亚洲 甚 多 ， 使 得 营运 成 本 居 高 不 下 ， 削 弱 了 在 
市 场 上 的 价格 竞争 力 ， 以 至 于 订单 大 量 流失 。 为 了 扭转 劣势 ，SKF 在 制 
造 设备 上 装载 了 大 量 传感器 , 搜集 有 关 震 动 、 噪 音 等 数据 , 希望 借 由 提高 
制程 及 产品 质量 ， 来 填补 价格 竞争 力 上 的 不 足 ， 没 想到 竟 意 外 发 现 ， 在 设 
备 即将 面临 故障 前 ， 总 是 会 出 现 一 些 共同 症 兆 ，SKF 也 因此 研发 出 一 套 
可 以 预测 系统 可 靠 度 的 制程 模型 。 

这 项 原本 只 是 在 内 部 使 用 的 机 制 激发 了 SKF 一 个 大 胆 的 创新 想法 ， 
SKF 认为 球 承 制 造 过 程 中 会 面临 的 问题 基本 上 大 同 小 异 ， 竞 争 对 手 也 一 
样 会 遇 到 ， 何 不 把 这 套 解决 方案 当 作 新 产品 来 提供 客户 服务 ， 协 助 同行 
解决 生产 设备 的 可 靠 度 问题 ， 增 辟 新 的 收入 来 源 ? 果然 这 项 新 服务 获得 


东南 亚 等 地 的 竞争 对 手 的 欢迎 ，SKF 最 后 索性 结束 原本 备 极 艰辛 的 产品 


#14 


结语 与 展望 
1 


制造 业务 ， 彻 底 转型 成 为 高 价值 服务 的 供 货 商 ， 向 原来 的 竞争 同行 提供 
制造 优化 建议 及 预警 服务 。 

SKF 不 仅 利用 大 数据 分 析 突破 了 原本 制造 业 低 价 抢 单 的 宿命 ， 而且 
也 以 原本 累积 的 知识 和 智能 成 功 找到 了 新 的 出 路 ， 这 也 是 大 数据 分 析 希 
望 让 企业 把 数据 变 成 策略 ， 然 后 化 为 行动 ， 继 而 找到 新 的 解决 方案 ， 产 
生 新 价值 的 最 大 意义 。 


跨 学 科 的 新 人 才 : 数据 科学 家 


另 一 方面 ， 随 着 大 数据 应 用 的 重要 性 益 发 为 人 重视 ， 数 字 化 经 济 也 
将 会 是 接 下 来 十 数 年 间 发 展 最 快速 的 领域 ， 伴 随 而 来 的 人 才 需 求 ,或 者 
说 人 才 短 缺 的 问题 也 开始 浮上 人 台面。 

例如 ， 先 前 提 到 的 数据 科学 家 。 对 过 去 这 些 习惯 默默 无 闻 的 工作 ， 
并 且 以 冷静 和 理性 著称 的 数据 分 析 工 作者 而 言 ， 人 们 看 待 他 们 的 眼光 突 
然 从 过 去 的 “数字 怪 咖 "， 变 成 了 被 《哈佛 商业 评论 》 认 为 21 世纪 “最 
性 感 ”的 职场 人 才 。 

这 是 数据 科学 从 学 术 研究 走向 职业 化 的 里 程 碑 ， 如 同 我 们 前 面 提 过 
的 麦肯锡 全 球 研究 院 研究 报告 ， 光 是 美国 目前 就 需要 14 万 到 19 万 名 的 
深度 分 析 工 作者 ， 而 商业 智能 公司 SiSense 的 调查 更 发 现 , 普通 的 数据 分 
析 师 平均 年 薪 5.5 万 美元 , 而 副 总 裁 级 别 的 数据 科学 家 年 薪 更 可 高 达 13.2 万 
美元 ， 而 且 因为 人 才 短 缺 ， 在 失业 率 居 高 不 下 的 美国 ， 该 职 缺 2013 年 的 
年 薪 还 在 持续 看 涨 中 。 





232 


数据 科学 无 疑 是 目前 科技 业 增长 最 快 的 领域 ， 目 前 美国 好 几 所 大 学 
已 有 包括 商业 分 析 ( Business Analytics ) 或 是 数据 分 析 ( Data Analytics ) 
的 硕士 以 上 课程 ， 专 门 培养 前 面 所 提 到 的 “数据 科学 家 "， 而 这 门 整 合 许 
多 领域 的 专业 技术 ， 从 华尔街 的 量化 交易 到 网 络 上 的 广告 定位 ， 甚 至 是 
现实 世界 中 的 供应 链 优 化 都 属于 它 的 范畴 。 

那么 ， 数 据 科 学 家 的 工作 到 底 是 什么 ? 麻 省 理工 科技 创业 杂志 
(Technology Review 》 访 问 了 一 位 Twitter 的 数据 科学 家 艾 德 温 (Edwin Chen ) 

为 Twitter 工作 之 前 ， 艾 德 温 在 麻 省 理工 学 院 学 习 的 是 纯 数学 和 语言 
学 ， 而 他 目前 的 工作 内 容 包括 构建 计算 机 学 习 模型 、 进 行 数据 可 视 化 或 
是 统计 分 析 ， 以 寻找 更 好 的 方式 来 理解 Twitter 上 的 使 用 者 。 

例如 , 我 们 可 以 从 有 关 食 物 的 tweet 中 得 到 些 什么 信息 , 如 男人 和 女 
人 了 用 的 东西 是 一 样 的 吗 ? 旧金山 和 纽约 的 居民 饮食 习惯 有 何 区 别 ? 用 户 
发 表 的 tweet 和 他 们 的 饮食 习惯 有 什么 关联 ? 或 者 , 人们 在 伤心 时 会 更 倾 
向 于 吃 垃圾 食物 吗 ? 当然 ， 最 重要 的 是 ， 这 些 海量 文本 经 过 计算 机 模型 
自动 推断 后 ， 该 如 何 将 用 户 和 广告 商 链接 在 一 起 。 

简单 来 说 ,数据 科学 家 的 专长 是 “量化 问题 ,然后 解决 问题 "， 他 们 
的 工作 内 容 是 3 种 东西 的 混合 物 : 定量 分 析 ( 使 你 了 解数 据 )， 程 序 设计 
(使 你 可 以 处 理 数据 )， 讲 故事 ( 让 别人 了 解数 据 的 含义 )。 

波士顿 大 学 ( Boston University) 博士 ，MetaMarkets 共同 创办 人 暨 
技术 官 德里 斯 科 ( Michael Driscoll ) 用 另 一 种 比较 诗意 的 表述 方式 : 数据 
科学 家 就 像 是 目光 如 炬 的 探险 家 加 上 人 逻辑 推论 的 大 使 探 ， 有 如 哥伦布 和 
科伦坡 的 合体 。 
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这 样 的 描述 还 是 无 法 让 一 般 人 知道 ， 数 据 科学 家 到 底 应 该 具备 哪些 
技能 ， 我 们 也 许可 以 从 Facebook 的 职 缺 说 明 中 找到 答案 。 

在 Facebook 的 职 缺 分 类 里 ， 数 据 科学 家 被 归 类 到 “软件 工程 ”中 ， 
但 却 比 软件 工程 师 更 需要 良好 的 沟通 能 力 ， 以 及 重视 产品 的 应 用 层面 ， 
而 且 必须 是 个 IT 通才 。 具 体 的 招聘 条 件 如 下 。 


. 相关 技术 领域 的 硕 博士 学 位 ,或 者 是 4 年 以 上 的 相关 应 用 经 验 。 
， 可 以 操作 和 分 析 从 不 同 来 源 收集 的 复杂 、 大 容量 、 高 维度 数据 。 
.热爱 实证 研究 ( Empirical Research )， 并 善于 用 数据 解答 难题 。 

.能 使 用 恰当 的 分 析 技能 处 理 可 用 数据 ， 灵 活 解答 相关 产品 问题 。 
与 产品 经 理 和 工程 师 就 数据 分 析 结 果 进 行 沟通 的 能 力 。 

至 少 熟练 掌握 一 种 脚本 语言 ( Python 或 者 PHP )。 

7， 有 能 力 处 理 大 规模 数据 ， 熟 悉 关 系数 据 库 和 SQL. 

8. 能 使 用 分 布 式 计算 工具 如 Map/Reduce 、Hadoop、Hive 等 者 优先 。 


人 mh wb 


Facebook 数据 小 组 负责 人 马 洛 (Cameron Marlow ) 解释 说 ， 数 据 科 
学 家 必须 肩负 着 从 数 以 TB 计 的 海量 个 人 数据 中 ， 发 现 新 商业 价值 的 重 
任 。 他 把 自己 的 工作 比喻 为 制造 一 个 超 高 倍数 望远镜 ,“ 就 如 同 天 文学 改 
变 这 个 世界 对 宇宙 的 理解 一 样 ， 数 据 科 学 家 开发 的 技术 也 可 以 改变 这 个 
世界 对 人 类 行为 的 科学 理解 。” 

例如 ， 人 们 怎么 从 社交 网 站 上 获得 价值 ? 一 段 时 间 后 会 有 什么 改 
变 ? 这 就 像 是 一 种 “人 类 动力 学 "， 找 出 如 入 际 影响 、 关 系 强度 、 信 息 扩 
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结语 与 展 


散 和 社会 支持 等 各 种 因素 的 交互 作用 。 

这 些 受过 相关 训练 的 数据 科学 家 ， 在 对 于 数字 的 好 奇 心 和 热情 驱使 
下 ,将 各 种 分 析 方 式 “ 混 搭 "， 可 以 在 已 知 的 问题 上 找 答案 ， 在 未 知 的 问 
题 中 找 知识 ， 甚 至 在 “不 知 为 不 知 ”( We don't know what we don't know ) 
的 环境 下 ， 找 出 这 些 过 去 不 知道 、 不 存在 的 模式 ， 继 而 影响 产品 、 流 程 
和 决策 ， 这 也 是 做 为 一 个 数据 科学 家 最 困难 却 也 最 具 价 值 的 地 方 。 

现在 ， 你 可 能 对 于 数据 科学 家 的 工作 内 容 已 有 粗略 的 认识 ， 但 到 底 
什么 样 的 人 有 能 力 做 到 这 些 呢 ? 你 可 以 把 他 们 看 成 是 一 部 分 的 数据 黑 
客 、 一 部 分 的 数学 专 才 、 一 部 分 的 产业 分 析 师 、 一 部 分 的 经 营 顾问 ， 而 
且 拥 有 用 数据 讲 故事 的 特长 。 


14-1 数据 科学 家 的 角色 


mene = BS 数学 和 统计 知识 


注 : 这 种 人 有 办 法 取得 大 量 的 数据 ， 且 因为 扎实 的 专门 背景 ， 可 以 写 出 看 似 头 头 是 道 的 分 析 - 
但 因为 他 们 没有 统计 背景 ， 这 些 分 析 其 实 不 准确 。 
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以 上 这 些 特 质 ， 绝 对 不 只 是 一 般 人 所 认为 的 ， 会 写 程序 、 会 组 装 硬 
件 的 信息 人 才 而 已 。 因 此 ， 许 多 企业 发 现 能 够 处 理 复杂 数据 的 人 才 ， 可 
能 都 是 有 自然 或 社会 科学 领域 的 学 习 和 工作 背景 ， 如 生态 学 或 是 系统 生 
物 学 。 例 如 我 们 先前 提 到 Facebook 的 马 洛 来 自 麻 省 理工 学 院 媒 体 实验 室 ， 
商业 社交 网 站 LinkedIn 中 的 葛 曼 ( Jonathan Goldman ) 是 史 丹 福 物理 学 博 
士 ， 美 国 著名 的 支付 服务 软件 公司 Intuit， 旗 下 数据 科学 小 组 的 负责 人 重 
曼 利 ( George Roumeliotis ) 则 是 天 文学 博士 毕业 。 

这 些 来 自 计 算 机 科学 、 数 学 、 经 济 学 等 有 关于 数据 和 计算 密集 型 领 
域 的 跨 学 科 人 才 ， 正 在 重组 大 数据 分 析 的 专业 生态 ， 尤 其 大 数据 本 身 具 
有 横 跨 各 产业 的 高 度 应 用 性 ， 因 此 在 企业 组 织 内 ， 跨 领域 的 人 才 可 能 激 
荡 出 更 多 火花 ， 例 如 2012 年 7 月 才 上 任 的 阿里 巴巴 集团 首席 数据 官 
(CDO, Chief Data Officer ) 陆 兆 禧 。 





懂 商 业 的 经 营 新 星 : CDO 


CDO 的 重要 性 是 从 2004 年 开始 ， 被 誉 为 “数据 挖掘 之 父 ”的 乌 萨 
玛 ' 菲尔德 ( Usama Fayyad ) 担任 雅虎 的 CDO 之 后 逐渐 在 企业 界 发 酵 。 
相 较 于 以 研究 为 主 的 数据 科学 家 ， 我 们 可 以 说 ，CDO 的 定位 是 一 位 懂得 
商业 运作 的 数据 分 析 者 ， 他 必须 从 每 天 不 断 产生 、 繁 复 的 大 量 数据 中 ， 
解读 什么 是 消费 者 想 要 ， 而 且 企业 可 以 提供 的 服务 ， 同 时 将 两 个 端点 串 
连 成 可 以 执行 的 行动 方案 。 

真正 的 CDO 需要 集 业务 知识 、IT 知识 和 经 济 学 、 统 计 学 于 一 身 ， 
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2. 洞 悉 网 络 产 
业 和 趋势 发 
展 。 

3. 具备 IT 设备 
和 技术 选 型 
的 能 力 。 

4. 商 业 营运 的 
能 力 。 

5. 管 理 和 沟通 
的 能 力 。 


不 仅 要 关注 的 是 系统 架构 中 所 承载 的 内 容 ， 更 要 担任 企业 决策 
和 数据 分 析 汇 整 的 枢纽 。 他 要 熟悉 包括 面向 服务 的 架构 ( SOA )、 
商业 智能 ( BI )、 大 规模 数据 集成 系统 、 数 据 存储 交换 机 制 以 及 
数据 库 、 可 扩展 标记 语言 (XML )、 电 子 数据 交换 (EDI) 等 系 
统 架 构 ， 也 要 深入 了 解 企业 的 业务 状况 和 所 处 的 产业 背景 ， 更 
要 清楚 地 知道 企业 的 数据 源 、 大 小 、 结 构 等 ， 才 可 以 将 数据 资 
料 与 业务 状况 联合 起 来 分 析 ， 提 出 相对 应 的 市 场 和 产品 策略 。 

从 企业 的 角度 来 说 , CDO 的 知识 架构 应 该 分 为 信息 技术 ( IT ) 
与 商业 营销 ( Marketing) 两 个 层面 ， 才 能 为 决策 者 提供 “信息 地 
图 ”和 “数据 仪表 板 "， 让 管理 者 可 以 清楚 了 解 到 数据 带 来 的 商业 
驱动 力 。 

由 于 CDO 的 工作 不 仅仅 是 在 技术 层面 ,加 上 数据 分 析 虽 然 独 
立 于 业务 、IT 和 营销 部 门 之 外 ， 但 却 同 时 需要 和 这 些 部 门 紧密 相 
连 ， 因 此 在 组 织 管理 上 开始 出 现 了 不 同 的 声音 。 有 人 认为 数据 管 
理 隶 属于 IT 部 门 的 范畴 ， 因 为 目前 企业 数据 的 主要 来 源 还 是 各 种 
IT 系统 ， 所 以 CDO 应 该 与 首席 技术 官 (CTO, Chief Technology 
Officer ) 一 起 向 首席 信息 官 (CIO，Chief Information Officer ) 汇报 。 

也 有 人 主张 ,在 大 数据 时 代 的 理想 状态 下 ，CDO 必须 整合 数 
据 价值 与 企业 决策 ， 所 以 应 该 至 少 是 公司 核心 管理 团队 的 5 人 之 
一 (其 他 包括 首席 执行 官 CEO、 首 席 运营 官 COO 、 首席 财务 官 CFO 
和 首席 信息 官 CIO )， 直 接 向 CEO 汇报 ， 阿 里 巴巴 集团 对 于 CDO 
的 角色 规划 便 是 如 此 。 





Y 


CDO 的 5 种 角 MAA 


1. 为 数据 发 声 ( Be 
the voi- ce of the 
data): 支持 和 执行 
数据 管理 的 策略 、 
标准 和 制度 化 。 

2. 权 衡 数据 风险 
( Measure and 
manage data risk ) 
发 展 测量 和 预知 数 
据 风险 的 能 力 ， 并 
检查 对 于 企业 经 营 
风险 的 影响 。 


3. 影 响 公司 策略 


(Influence corporate 
strategy )， 以 有 效 
的 数据 分 析 促使 企 
业 做 出 更 具 洞察 力 
的 决策 。 

4. 提高 收入 ( Improve 
the top line ): 利用 
数据 增加 营 收 、 顾 
客 认 同 、 顾 客 保 留 
率 和 商 誉 。 

5. 提高 利润 { Improve 
the bottom line ) 
通过 及 时 和 正确 的 
数据 降低 成 本 、 提 
高 生产 力 。 
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担任 阿里 巴巴 集团 CDO 的 陆 兆 禧 可 以 直接 向 执行 长 马云 汇报 , 无 须 
经 过 CIO， 这 不 仅 引发 中 国内 地 的 科技 业 一 番 震 撼 ，CDO 的 权 责 也 再 次 
成 为 讨论 焦点 。 另 一 个 出 人 意 表 的 事实 是 ， 陆 兆 禧 并 非 DBA ( 数据库 管 
理 员 ) 出 身 ， 且 没有 深厚 的 技术 背景 。 

他 在 广州 大 学 念 的 是 酒店 管理 ， 从 早上 7 点 到 晚上 11 点 都 在 端 盘子 、 
擦 桌 子 的 酒店 服务 生 做 起 ， 一 路 升 到 大 堂 经 理 、 客 房 经 理 、 餐 厅 经 理 。 
28 岁 时 辞职 ， 与 朋友 合伙 经 营 一 家 网 络 通信 公司 ， 但 并 不 成 功 。 两 年 后 
加 入 阿里 巴巴 ， 毫 无 金融 资历 的 他 一 手 将 支付 宝 打造 为 中 国 最 大 的 支付 
系统 ，2008 年 担任 淘宝 网 总 裁 后 ， 让 该 网 站 的 市 场 占 比 、 人 气 都 有 了 显 
著 的 提升 ， 才 开始 被 媒体 所 注意 。 

陆 兆 禧 自己 曾 说 ,“ 做 学 生 要 读书 ， 但 不 要 迷信 书 ;做 总 裁 ， 要 相信 
数据 ， 但 不 要 迷信 数据 ， 这 样 才 不 会 盲目 。” 这 代表 的 是 ， 他 相信 数据 所 
提供 的 现象 ， 但 他 更 重视 数据 分 析 背 后 代表 的 意义 ， 而 这 也 是 阿里 巴巴 
集团 为 何 选择 非 技术 出 身 的 陆 兆 禧 做 为 CDO， 因 为 惟有 深入 了 解 业务 的 
人 才 ， 才 有 能 力 真正 的 把 数据 变现 金 。 

然而 ， 是 否 每 一 家 企业 都 需要 把 CDO 纳入 “C 级 俱乐部 ”( C-level 
Club)? 事实 上 , 每 一 家 公司 或 组 织 都 有 自己 的 历史 和 特质 ,这 不 仅 关系 
到 数据 管理 的 来 源 和 类 型 ， 也 左右 了 CDO 在 公司 内 部 的 必要 性 和 功能 ， 
或 许 我 们 可 以 从 下 列 “CDO 函数 ”开始 讨论 。 


1. 规模 和 历程 (Size and footprint): 一 家 企业 在 该 市 场 或 国家 的 排 
名 ,包括 市 场 规模 、 分 公司 或 子 公司 数 、 员 工 和 顾客 数 ， 原 则 上 
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规模 越 大 、 辖 下 公司 和 员工 数目 越 多 者 ， 越 有 机 会 产生 大 量 的 数 
据 需 要 管理 和 分 析 。 

2. 产业 (Industry ): 一 家 企业 的 核心 业务 会 产生 大 量 且 复杂 的 数据 
资料 ， 例 如 金融 服务 业 和 制造 业 ， 抑 或 是 与 顾客 互动 需要 信赖 
高 质量 数据 分 析 的 产业 ， 例 如 零售 业 或 电子 商务 ， 又 或 者 是 对 
于 数据 需要 高 度 监控 的 行业 ， 例 如 金融 业 、 医 疗 护理 或 是 某 些 
娱乐 产业 。 

3. IT 组 织 (IT organization ): 公司 内 部 的 IT 部 门 是 独立 运作 , 还 是 
用 来 服务 其 他 部 门 ? 它 的 预算 是 集中 管理 ， 还 是 各 个 业务 单位 支 
付 自己 的 技术 需求 ”CIO 要 报告 的 对 象 是 CEO 还 是 CFO? 换 句 
话说 , IT 部 门 被 视 为 不 可 或 缺 的 公司 策略 单位 , 或 者 它 只 是 被 视 
为 一 个 成 本 中 心 ， 帮 助 日 常 业务 顺利 运作 ? 如 果 答 案 都 是 前 者 ， 
那么 CDO 的 存在 才 有 其 意义 。 

4. 数据 管理 的 成 熟 度 ( Maturity of data management ): 包括 数据 质量 、 
管理 方式 、 主 数据 ( master data ) 管理 和 数据 安全 ， 是 否 都 有 系 
统 进行 分 析 ， 并 且 成 为 企业 决策 的 参考 依据 ? 是 否 有 数据 管理 的 
政策 和 程序 ， 而 且 采 用 产业 标准 ?最 重要 的 是 ， 企 业经 营 高 层 有 
决心 支持 数据 管理 计划 。 


综合 上 述 ， 我 们 可 以 说 规模 大 x 适合 的 产业 xIT 部 门 的 重要 性 x 数 


据 管理 的 成 熟 度 = 一 个 适合 CDO 施展 才能 的 环境 。 然 而, 最 好 的 计划 也 
会 因为 没有 利益 关系 人 stakeholders ) 的 支持 和 参与 而 胎 死 腹 中 ， 企 业 
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在 设置 CDO 的 时 候 应 该 特别 注意 以 下 几 点 。 


1, 其 他 管理 阶层 支持 与 否 (Total backing of the rest of the C-level ): 
这 主要 是 确认 CDO 的 权 责 领域 。 其 他 高 层 主管 的 理解 、 支 持 
和 积极 参与 ， 以 及 对 于 CDO 这 个 角色 和 职责 的 认同 都 相当 重 
要 ， 因 为 这 关系 到 CDO 往 后 如 何 整合 各 单位 的 数据 或 人 力 
资源 。 

. CDO 应 肩负 大 型 的 业务 问题 ( Piggyback on large business 

problems ): 在 大 多 数 的 组 织 中 , 只 是 利用 数据 说 话 势 必 难 以 服 众 ， 

除非 CDO 可 以 解决 并 直接 响应 一 些 迫 在 眉 睫 的 大 型 业务 问题 。 
例如 ， 金 融 业 如 何 利用 数据 分 析 应 对 最 近 加 强 查 核 的 监管 法 令 ， 

或 是 如 何 帮 助 医疗 业 应 对 法 令 规定 建立 标准 化 的 电子 病历 等 。 也 

就 是 说 ，CDO 的 功能 在 于 帮助 企业 的 “核心 业务 ”( heart of the 

business ) 解决 问题 或 应 对 挑战 这样, 较 可 能 避免 数据 小 组 在 发 

展 的 婴儿 期 就 面临 天 折 。 

识别 有 特定 综合 技能 的 CDO (Recognize the specific combination 

of skills ofa CDO ): 如 前 所 述 , 一 个 好 的 CDO 必须 同时 平衡 技术 

技能 、 商 业 知识 和 人 际 沟通 能 力 ， 可 以 担任 数据 小 组 的 领航 者 ， 

也 必须 有 深厚 的 商业 市 场 专业 ， 更 要 有 能 力 解决 办 公 室 内 的 政治 

问题 ， 才 能 够 使 得 项 目 顺利 推行 。 

对 于 CDO 的 责任 应 该 明确 定义 ( Clearly define respon-sibilities for 

the CDO ): 各 个 企业 对 于 CDO 的 角色 和 职责 必须 要 明确 的 规范 ， 


N 


= 
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例如 , 最 早 开始 聘用 CDO 的 华尔街 , 就 很 清楚 地 知道 CDO 的 职 
责 是 关注 金融 风险 管理 和 符合 法 规 ; 其 他 产业 的 CDO 主要 职责 
可 能 在 于 市 场 分 析 、 供 应 链 数据 可 视 化 ( supply chain visibility ) 
或 顾客 管理 。 如 此 一 来 ， 企 业内 的 其 他 单位 也 会 对 CDO 的 权 责 ， 
和 需要 提供 或 配合 的 协助 较为 清楚 。 

5. 赋予 CDO 执行 权 ( Empower the CDO with execution autho-rity ): 
没有 任何 权力 和 资源 来 执行 数据 管理 计划 ，CDO 就 不 可 能 真正 
影响 到 业务 ， 因 此 除了 配备 IT 和 业务 资源 之 外 ，CDO 也 要 有 
执行 企业 策略 或 项 目的 权力 , 才能 真正 发 挥 数据 管理 和 分 析 的 
作用 。 


是 童话 还 是 事实 ? 是 文明 还 是 老大 哥 ? 


的 确 ， 不 论 是 数据 科学 家 或 是 CDO， 都 是 这 个 “与 数 俱 进 ”的 时 
代 里 新 登场 的 重要 角色 。 但 是 我 们 也 要 告诉 你 的 是 组织 变革 是 相当 困 
难 的 ! 

这 就 像 是 童话 故事 的 开头 通常 是 “很 久 很 久 以 前 ……”"， 结 束 时 通常 
是 “从 此 ， 他 们 过 着 幸福 快乐 的 日 子 ” 一 样 ， 没 有 人 去 解释 为 什么 童话 
故事 中 的 王子 和 公主 ， 结 婚 后 不 会 争吵 、 永 远 和 了 睦 。 

也 就 是 说 ， 大 数据 可 以 转化 公司 业务 、 改 变 企业 经 营 者 的 思维 , 但 
却 无 法 解释 或 说 明 “如 何 ”改变 公司 内 部 的 组 织 ， 甚 至 根据 我 们 的 经 验 
发 现 ， 当 一 家 企业 的 问题 可 以 利用 数据 分 析 来 改变 时 ， 它 最 急迫 需要 的 
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却 不 是 数据 分 析 ， 而 是 人 们 在 组 织 架构 图 中 的 角色 ， 以 及 系统 设计 过 程 
中 的 变化 。 

让 我 们 假设 数据 分 析 的 确 揭示 了 业务 改进 的 机 会 ， 无 论 是 在 降低 成 
本 还 是 增加 收入 方面 。 然 而 真正 要 做 到 ， 必 须 双 管 齐 下 ， 改 变 组 织 架构 
中 的 流程 和 角色 ， 同 时 追踪 这 些 变化 的 结果 ， 建 立 一 套 双 向 反馈 的 管理 
制度 。 另 一 个 大 多 数 企 业 会 面临 的 挑战 是 ， 在 进行 数据 管理 和 分 析 时 ， 
是 否 每 一 个 人 都 在 同一 条 船上 ? 当 有 参与 者 不 一 起 玩 ， 在 这 个 升级 过 程 
中 是 否 有 惩罚 性 措施 ? 

我 们 回头 去 看 看 一 个 经 典 案例 : 在 CompStat 的 帮助 下 ,纽约 市 长 朱 
利安 尼 成 功 减 少 了 犯罪 率 。 之 前 ， 我 们 提 过 在 每 周一 次 的 会 议 中 , 纽约 
市 警察 局 会 召集 旗下 5 个 区 指挥 官 讨论 问题 、 制 定 战略 和 战术 来 减少 犯 
罪 。 但 是 你 可 能 不 知道 的 是 ， 头 一 年 他 们 讨论 最 多 的 是 如 何 重组 人 事 结 
构 、 建 立 执行 流程 以 及 设置 问 责 制 ， 而 且 根据 CompStat 追踪 的 结果 ， 这 
些 战略 和 战术 的 成 功 或 失败 ， 分 区 指挥 官 都 会 被 追究 责任 ， 以 确保 这 些 
变革 得 以 真正 被 执行 且 受 到 管控 。 

所 以 ， 当 有 人 声称 大 数据 将 改变 你 的 业务 ， 请 记 住 ， 它 的 确 带 来 了 
转型 的 潜力 ， 而 不 是 实际 上 的 转型 。 因 为 ， 这 些 还 需要 加 上 承诺 和 努力 
工作 ， 否 则 再 怎么 精密 的 分 析 都 像 是 你 原来 所 想 ,“ 从 此 过 着 幸福 快乐 的 
生活 ”只 不 过 是 童话 而 已 。 

所 有 事情 都 有 一 体 两 面 ， 大 数据 对 企业 来 说 ， 是 童话 还 是 事实 ? 要 
看 企业 是 否 有 管理 转型 的 决心 。 另 一 项 值得 反思 的 现象 是 ， 大 数据 对 这 
个 世界 来 说 ， 是 文明 还 是 老大 哥 ( Big brother) ? 这 得 要 看 你 我 有 没有 自 
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律 的 决心 。 

“不 论 是 睡 着 还 是 醒 着 ， 在 工作 还 是 在 吃饭 ， 在 室内 还 是 在 户外 ,在 
澡 盆 里 还 是 在 床上 - 没有 躲避 的 地 方 。 除 了 你 脑 沉 里 的 几 立方 厘米 以 
外 ， 没有 东西 是 属于 你 自己 的 .” 

这 是 乔治 ， 奥 韦 尔 (George Orwell) 著名 的 小 说 《一 九 八 四 》 里 的 
情节 。 这 部 刻画 出 人 们 对 于 专制 集权 的 反思 之 作 ， 描 述 在 大 洋 国 里 的 居 
民 ， 党 领袖 “老大 哥 ” 利 用 电 幕 ( telescreen， 一 -种 双向 电视 ) 来 监控 人 
民 的 表达 、 交 流 和 生活 ， 任 何 一 个 对 党 不 向 的 言论 ， 甚 至 是 表情 ， 都 可 
能 被 报告 ， 然 后 是 教育 、 还 捕 、 改 造 、 清 洗 。 

在 那个 钳制 思想 、 生 活 贫乏 的 世界 里 ， 完 全 没有 隐私 和 自由 可 言 。 
而 这 种 通过 科技 形成 的 监控 也 让 人 们 开始 对 于 “大 数据 是 否 等 于 老大 哥 ” 
产生 争议 ， 认 为 科技 的 进步 和 政府 或 企业 权力 的 扩张 ， 将 会 对 个 人 隐私 
造成 潜在 的 威胁 。 ; 
当然， 这 种 担心 并 非 空穴来风 。 当 美国 大 卖场 Target 比 父母 还 要 早 
知道 女儿 怀孕 的 消息 ( 利用 购买 数据 推测 )， 银 行 比 麦子 们 更 清楚 先生 光 
顾 了 特种 场所 ! 时 ， 个 人 数据 的 隐私 性 问题 就 更 被 大 众 所 注 意 。 

例如 ， 美 国 前 总 统 布什 (George W. Bush ) 在 2002 年 ， 下 令 美 国 国 
家 安全 局 ( NSA ) 监听 美国 公民 对 国外 的 通话 ， 以 便 及 早 发 现 恐 怖 分 子 ， 

















美国 某 银 行 装 设 一 台新 的 ATM 提 款 机 , 但 接 下 来 几 周 的 数据 记录 却 非常 奇怪 ,因为 每 
天 的 午夜 12 点 到 2 点 之 间 , 都 有 大 量 的 款项 被 提取 。 该 银行 担心 这 种 现象 涉及 诈骗 等 
违规 操作 ， 于 是 雇用 侦探 进行 监控 和 调查 。 结 果 发 现 ， 之 所 以 有 很 多 顾客 选择 在 午夜 
提 款 ， 是 因为 这 台 提 款 机 就 设 在 一 家 色情 俱乐部 旁 ， 顾 客 不 想 在 信用 卡 上 留 下 消费 记 
录 ， 所 以 改 为 提取 现金 。 后 米 ; 当地 的 报纸 还 以 “XX 银行 知道 昨 晓 谁 光顾 了 妓院 ”为 
题 报导 此 事 。 
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因而 建立 了 一 个 全 美 最 大 的 个 人 信息 数据 库 ， 收 集 几 千 万 人 的 地 址 、 电 
话 和 其 他 数据 。 这 项 行动 在 2006 年 被 《今日 美国 》 踢 爆 后 ， 人 们 才 发 现 
这 些 侵 犯 隐私 的 政府 违法 作为 ， 背 后 都 有 民间 电信 、 电 话 公司 的 配合 。 
报导 中 甚至 还 指称 联邦 调查 局 ( FBI ) 希望 在 包括 Facebook 和 Twitter 等 
社交 网 站 上 建立 可 监控 的 “后 门 "， 这 代表 的 是 美国 政府 正 走向 奥 韦 尔 式 
(Orwellian ) 的 状态 。 

此 举 引 起 群众 哗然 ， 甚 至 美国 有 些 律师 主动 推行 修法 ， 希 望 把 “个 
人 数字 信息 ”纳入 美国 宪法 《第 4 修正 案 》。 法 案 原 文 是 :“ 人 人 具有 保 
障 人 身 、 住 所 、 文 件 及 财物 的 安全 ， 不 受 无 理 的 搜索 和 拘捕 的 权利 ; 此 
项 权利 ， 不 得 侵犯 ;除非 有 可 成 立 的 理由 ， 加 上 宣 哲 或 暂 愿 保证 ， 并 具 
体 指明 必须 搜索 的 地 点 ， 必 须 拘捕 的 人 ， 或 必须 扣押 的 物品 ， 否 则 一 概 
不 得 颁发 搜捕 状 。 

由 于 目前 无 明文 规定 “隐私 权 ” 为 保障 的 范畴 ， 因 此 相关 人 士 希望 
纳入 “人 民 数 字 信 息 和 通信 的 隐私 权 是 不 可 剥夺 的 ”( The people’s right to 
privacy in their data and communications shall not be abridged. ) 等 文字 内 容 。 

不 可 否认 地 ， 政 府 或 企业 运用 大 数据 是 恰如其分 ， 还 是 稍 一 不 慎 便 
成 为 老大 哥 的 情况 ， 经 常 只 有 一 步 之 差 ， 但 也 不 可 因 嘻 废 食 ， 忽 略 了 大 
数据 分 析 可 能 为 医疗 、 公 共 安 全 等 领域 带 来 的 社会 益处 ， 以 及 在 商业 世 
界 中 企业 可 以 为 人 们 提供 更 适合 选择 的 市 场 优点 。 

重点 是 ， 在 运用 大 数据 的 同时 ， 政 府 和 企业 的 目的 性 。 我 们 没有 办 
法 针对 每 一 个 政府 、 每 一 家 企业 的 情况 ， 制 定 一 套 共同 的 标准 ， 帮 助 它 
们 顾全 更 多 人 的 利益 ， 同 时 保护 更 多 人 的 隐私 ， 但 必须 强调 的 是 ， 不 论 
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是 政府 或 是 企业 ， 都 必须 确保 他 们 不 要 跨越 自 定义 的 界限 ， 造 成 隐私 入 
侵 的 后 果 。 

科技 本 身 是 中 立 (neutral) 的 ， 如 同 《圣经 》 所 说 : 上 帝 叫 日 头 照 好 
A, WHOA; 降雨 给 义 人 ， 也 给 不 义 的 人 。 科 技 的 演进 会 让 好 事 发 生 ， 
也 会 让 坏事 发 生 ， 但 我 们 相信 ， 在 人 类 迈 向 更 文明 、 更 美好 的 过 程 中 ， 
唯一 的 纪律 , 就 是 持续 自律 ( the only discipline that lasts is self-discipline ), 
我 们 也 衷心 期 盼 在 人 类 文明 的 演进 过 程 中 ， 良 善 的 一 面 可 以 获得 多 一 点 
帮助 ， 让 大 数据 分 析 协助 产业 建立 新 价值 、 找 到 新 方向 ， 创 造 更 多 的 就 
业 新 机 会 ， 让 这 个 世界 达到 中 国人 所 说 的 “大 道 之 行 也 ， 天 下 为 公 ” 的 
境界 。 


(本 书 由 方 沛 晶 、 施 祖 琪 采访 整理 ) 
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